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内 容 简 介 
本 书 综合 了 大 量 国内 外 的 最 新 资料 和 作者 的 研究 成 果 , 介 绍 了 社会 计算 的 定义 和 研究 内 


容 , 以 社会 化 媒体 大 数据 为 例 讨论 了 数据 获取 和 知识 表示 ,从 社会 化 媒体 的 网 络 结构 和 内 容 的 
角度 研究 了 社区 发 现 算法 和 兴趣 社区 划分 方法 ,讨论 了 社会 化 媒体 网 络 信息 的 传播 问题 . 跨 平 
台 挖 掘 以 及 群体 智慧 的 一 些 相关 研究 成 果 。 


全 书 围绕 着 三 个 层次 展开 叙述 : 数据 层 ( 第 1 一 2 章 ) 研 究 社 会 化 媒体 以 及 社会 化 媒体 的 数 


据 获取 和 知识 表示 ; 模型 层 (第 3 一 5 章 ) 重 点 分 析 了 社区 发 现 和 社会 建 模 与 分 析 , 社 区 发 现 是 进 
行 社区 建 模 和 分 析 的 基础 ; 应 用 层 ( 第 6 一 8 章 ) 研 究 社会 媒体 文本 挖掘 的 情感 分 析 金融 决策 分 
析 、 跨 平台 的 知识 发 现 、 群 体 智慧 方面 的 应 用 。 全 书 提供 了 大 量 的 研究 算法 和 应 用 实例 ,每 章 后 
均 附 有 思考 题 。 
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人 士 , 也 可 作为 计算 机 应 用 方向 的 教材 或 参考 书 。 
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本 书面 向 社会 化 媒体 大 数据 ,介绍 了 社会 化 媒体 计算 的 一 些 典型 算法 及 应 用 。 
本 书 结合 现 阶段 社会 计算 的 研究 方向 和 热点 ,从 社会 计算 的 实验 数据 源 出 发 ,在 介 
绍 社 会 化 媒体 的 基础 上 ,讨论 了 社会 化 媒体 的 集成 技术 ,并 根据 社会 化 媒体 的 特 
点 ,将 现 有 的 研究 分 为 基于 社会 化 媒体 网 络 结构 和 基于 社会 化 媒体 内 容 两 类 ,依次 
分 别 阐述 各 相关 研究 。 第 1 章 为 绪 言 .着重 介绍 社会 计算 的 定义 和 研究 内 容 。 第 2 
章 介 绍 社会 计算 的 实验 资料 来 源 , 以 社会 化 媒体 为 例 着 重 介绍 其 数据 获取 和 知识 
表示 。 第 3 章 研 究 了 基于 网 络 结构 的 社区 发 现 。 第 4 章 讨 论 了 基于 内 容 的 兴趣 社 
区 发 现 。 第 5 章 主要 研究 了 社会 化 媒体 网 络 中 信息 的 传播 分 析 。 第 6 章 讨 论 了 社 
会 化 媒体 计算 应 用 。 第 7 章 研究 了 社会 化 媒体 跨 平台 挖掘 问题 。 从 更 广泛 的 角度 
来 说 ,利用 群体 智慧 的 算法 实际 上 是 社会 计算 的 特殊 形式 , 即 通过 社会 个 体 的 合作 
或 竞争 完成 某 一 特定 的 任务 ,所 以 第 8 章 我 们 也 介绍 了 群体 智慧 的 相关 研究 成 果 。 
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本 章 学 习 目标 
。 理解 社会 计算 的 概念 
。 了解 社会 计算 的 研究 内 容 


近 十 年 来 , 随 着 互联 网 技术 的 发 展 ,尤其 是 Web 2.0 的 兴起 ,互联 网 涌现 出 大 
量具 有 交互 功能 的 Web 应 用 程序 和 网 站 。 它 们 吸引 了 大 量 的 用 户 , 并 贡献 出 海量 
的 社会 行为 数据 。 与 此 同时 ,移动 设备 的 普及 和 移动 互联 网 的 兴起 ,人 们 所 能 获取 
的 社会 行为 数据 将 越 来 越 多 。 因 此 ,社会 计算 将 很 可 能 成 为 继 物 理 计算 和 生物 计 
算 之 后 科学 计算 的 新 热点 ,并 催生 出 新 的 研究 领域 和 方向 。 


1.1 社会 计算 定义 


社会 计算 作为 一 个 新 兴 的 跨 学 科 的 研究 领域 ,目前 还 没有 一 个 公认 的 定义 。 
一 般 认 为 ,社会 计算 是 一 门 现代 计算 技术 与 社会 科学 的 交叉 学 科 。 不 过 ,我 们 可 以 
从 社会 计算 出 现 的 背景 去 剖析 概念 ,将 社会 计算 简单 概括 为 “用 社会 化 方法 计算 社 
会 ”, 具 体 包含 两 层 意思 , 即 “为 社会 计算 "和 “用 社会 化 方法 计算 ”。 国 内 学 者 在 深 
刻 思考 互联 网 的 飞速 发 展 和 网 络 社会 化 趋势 的 基础 上 ,提出 了 社会 计算 是 面向 社 
会 活动 .社会 结构 .社会 过 程 、 社 会 组 织 及 其 有 关系 统 、 社 会 功能 和 传播 效能 的 计算 
理论 和 方法 。 

社会 计算 反映 了 社会 计算 研究 与 服务 的 对 象 是 社会 ,包括 虚拟 网 络 (虚拟 社 
区 ) 和 现实 社会 ,以 及 从 中 抽象 出 来 的 人 工 社 会 。 从 这 个 角度 来 说 ,通过 信息 技术 
方法 对 虚拟 网 络 进行 分 析 , 了解 社会 已 经 发 生 、 正 在 发 生 、 将 要 发 生 的 事情 ,准确 地 
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把 握 社会 的 动态 特征 和 运行 规律 ,预测 政策 实施 的 可 行 性 ,为 虚拟 网 络 社会 的 科学 
管理 和 政府 决策 提供 参考 。 

社会 计算 作为 计算 科学 和 社会 科学 的 交叉 学 科 , 已 成 为 人 们 分 析 、 管 理 和 控制 
社会 系统 中 相关 问题 的 强 有 力 方法 。 通 常情 况 下 ,可 以 从 计算 科学 和 社会 科学 两 
个 方面 对 社会 计算 进行 认识 。 从 计算 科学 的 角度 看 ,社会 计算 是 研究 计算 机 以 及 
信息 技术 在 社会 中 的 应 用 ,进而 影响 传统 的 社会 行为 的 过 程 ; 该 角度 注重 微观 和 
技术 的 层面 ,并 具有 较 长 的 研究 历史 。 从 社会 科学 的 角度 看 ,社会 计算 是 基于 社会 
科学 知识 .理论 和 方法 学 ,借助 现代 计算 技术 ,来 帮助 人 类 认识 和 研究 社会 科学 的 
各 种 问题 ,提升 人 类 社会 活动 的 效益 和 水 平 ; 该 角度 从 宏观 的 层面 来 观察 社会 , 它 
注重 社会 知识 在 现代 计算 机 技术 中 的 应 用 ,并 以 此 解决 传统 社会 科学 研究 中 使 用 
经 验方 法 和 数学 方程 式 等 手段 难于 解决 的 问题 。 

显然 ,社会 计算 的 研究 对 象 是 社会 , 它 包 括 现实 的 物理 社会 和 虚拟 的 网 络 社 
会 。 从 广义 来 讲 , 整 个 Internet 就 是 一 个 虚拟 网 络 , 但 从 狭义 来 讲 , 虚 拟 网 络 主 要 
指 基于 Web 2.0 的 ,强调 以 用 户 为 中 心 的 虚拟 社区 ,如 Facebook、Twitter 等 虚拟 
网 络 。 无 论 是 Web 2. 0 还 是 Facebook .Twitter 等 虚拟 社会 网 络 系统 ,其 最 大 的 特 
点 就 是 强调 用 户 与 用 户 间 的 交互 ,实现 的 是 人 与 人 的 互联 。 如 何 促进 人 与 人 的 交 
互 是 社会 计算 研究 的 另 一 重要 内 容 。 随 着 Web 2. 0 理念 的 深入 ,交互 的 重点 已 经 
从 传统 的 人 -机 交互 (Human Computer Interface, HCI) 转 化 为 人 -人 交互 (CHuman 
Human Interface,HHI) 。 对 不 同 的 应 用 领域 ,人 人 交互 的 模式 不 同 。 例 如 在 微 博 
中 ,交互 方式 包括 跟 帖 .回复 ,粉丝 等 ; 在 人 际 关 系 网 中 ,人 人 交互 一 般 显 性 表现 为 
加 某 某 为 好 友 。 目 前 有 少数 学 者 从 信息 系统 行为 角度 对 社会 网 络 信息 交互 模式 、 
基于 Web 2.0 的 信息 生成 模式 、Web 2. 0 环境 下 知识 共享 问题 进行 研究 。 

社会 计算 讲究 的 是 用 户 协 同 。 随 着 大 量 社会 网 络 的 产生 ,以 Web 2.0 思想 为 
核心 的 社会 协同 计算 模式 正 逐 步 应 用 到 诸多 领域 ,如 个 性 化 推荐 .电子 商务 、 网 络 
营销 等 。 社 会 计算 是 一 种 以 “草根 ”用 户 为 中 心 .并 依靠 “草根 ”用 户 的 用 户 化 方法 ， 
一 种 协同 和 群体 智能 的 方法 ,是 一 种 从 个 体 到 整体 ,从 微观 到 宏观 的 思维 模式 。 许 
多 事件 都 是 由 无 数 网 民 微 不 足 道 的 微观 行为 最 终 发 展 成 一 个 重大 的 社会 事件 或 浩 
大 的 工程 。 从 这 个 角度 来 讲 , 社 会 计算 是 一 种 群体 智能 的 计算 模式 。 

虽然 社会 计算 近年 来 才 引 起 国内 外 学 者 的 高 度 重视 ,但 从 计算 科学 的 角度 来 
看 ,社会 计算 的 研究 已 经 有 较 长 的 研究 历史 。 随 着 计算 机 网 络 的 出 现 ,各 类 交互 软 
件 和 Web 应 用 程序 的 出 现 , 使 得 计算 机 成 为 一 种 新 兴 的 通信 工具 , 它 拉 近 了 人 们 
之 间 的 距离 ,并 使 得 分 布 在 世界 各 地 的 用 户 之 间 拥 有 了 新 的 合作 和 交流 方式 。 因 
此 ,从 技术 的 角度 来 看 ,社会 计算 的 功能 之 一 就 是 研究 使 用 计算 机 技术 ,构建 社会 
软件 (Social Software) ,为 人 们 的 沟通 .协作 创造 一 个 便利 的 “ 虚 ?* 环 境 。 基 于 这 个 


理解 ,1994 年 ,Schuler 就 提出 了 社会 计算 (Social Computing) 的 概念 。 从 该 层面 
上 看 ,社会 计算 是 指 支持 任何 社会 行为 的 计算 机 系统 。 它 通过 软件 和 信息 等 技术 ， 
构建 或 重 构 社 会 环境 及 社会 对 话 方式 。 因 此 ,电子 邮件 系统 .论坛 .博客 .即时 通信 
软件 .社会 网 络 服务 .Wiki\ 社 会 书签 以 及 其 他 各 种 形式 的 社会 软件 都 属于 社会 计 
算 的 范畴 。 随 着 社会 软件 的 发 展 , 越 来 越 多 的 用 户 参 与 社会 软件 的 活动 ,进而 产生 
越 来 越 多 的 社会 行为 数据 。 于 是 ,有 学 者 发 现 , 一 方面 ,通过 大 量 用 户 的 参与 ,集合 
群体 智慧 ,可 以 解决 传统 方法 所 无 法 解决 的 问题 ; 另 一 方面 ,人 们 还 发 现 利 用 用 户 
所 贡献 的 海量 数据 ,可 以 分 析 、 解 决 许 许 多 多 的 社会 学 问题 。 基 于 这 些 新 认识 ， 
2005 年 ,James Surowiecki 在 The Wisdom of Crorwds 一 书 中 ,提出 了 社会 计算 是 
利用 群体 智慧 进行 计算 的 概念 。 其 内 容 包括 协同 市场 预测 、 信 誉 评估 、 在 线 拍 卖 
等 。 近 年 来 热门 的 “ 众 包 ?概念 就 是 强调 借助 计算 机 网 络 , 有 效 利 用 广大 用 户 群 体 
的 智慧 ,解决 相关 应 用 问题 ,属于 社会 计算 的 范畴 。 

与 此 同时 ,各 类 和 恐 怖 事件 的 发 生 , 包 括 美国 的 "9。11”\ 西 班 牙 的 “3。11” 和 英 
国 的 “7。7? 等 事件 ,促进 了 人 们 对 社会 计算 的 研究 。 人 们 越 来 越 意识 到 : 人 们 需 
要 构建 一 种 新 的 信息 处 理 方法 ,充分 挖 气 海量 社会 行为 数据 ,从 而 获取 更 多 有 效 的 
情报 内 容 , 进 而 保障 社会 公共 安全 。 在 这 个 背景 下 ,2003 年 ,美国 政府 提出 了 “ 情 
报 与 安全 信息 学 ?的 概念 。 毫 无 疑问 ,情报 与 安全 信息 学 ”只 是 将 现代 计算 机 技术 
应 用 于 社会 问题 解决 的 一 个 具体 例子 。 随 着 信息 技术 的 发 展 ,海量 社会 行为 数据 
将 催生 现 有 的 大 型 计算 方法 和 应 用 逐步 扩展 到 社会 计算 的 各 个 领域 ,进而 解决 各 
类 社会 问题 。 所 有 这 些 都 属于 计算 层面 社会 计算 的 范畴 。 

社会 计算 的 发 展 离 不 开 社 会 软件 的 兴盛 .Web 3. 0 技术 的 发 展 、 社 会 网 络 分 析 
(Social Network Analysis, SNA) 在 学 术 界 的 持续 走 热 \、 开 源 软 件 的 兴起 以 及 人 们 
对 这 些 技术 所 带 来 积极 影响 的 信心 。 以 往 , 人 们 往往 从 研究 机 构 、 企 业 、 媒 体 、 宗 教 
和 政治 团体 等 获取 信息 ; 在 社会 计算 的 影响 下 , 随 着 终端 设备 的 普及 ,信息 内 容 的 
结构 化 和 获取 便捷 性 以 及 计算 资源 的 共享 ,人 们 的 沟通 和 交流 越 来 越 便利 ,人 们 越 
来 越 愿意 从 其 他 个 体 获 取信 息 。 这 种 根本 性 的 变化 无 疑 将 对 经 济 和 政治 产生 极为 
深远 的 影响 。 

经 过 近 百 年 的 发 展 ,传统 社会 科学 ,诸如 经 济 学 、 社 会 学 等 领域 都 形成 了 一 套 
严谨 的 体系 结构 。 然 而 ,与 自然 科学 相 比 , 现 有 的 社会 科学 体系 还 远 远 不 够 完整 。 
正如 社会 学 鼻祖 奥 古 斯 特 。 孔 德 对 社会 学 的 定义 : 社会 学 希望 使 用 一 种 类 似 于 物 
理学 这 样 的 自然 科学 的 方法 与 理论 ,统一 所 有 的 人 文科 学 学 科 , 从 而 建立 一 门 经 得 
起 科学 规则 考验 的 新 的 人 文学 科 。 因 此 ,从 社会 学 的 角度 来 看 ,社会 计算 强调 以 现 
代 计 算 技 术 为 工具 ,应 用 社会 科学 理论 ,研究 解决 社会 问题 的 方法 和 手段 ,进而 帮 
助 建立 社会 科学 诸多 领域 的 理论 和 方法 学 体系 。 它 涉及 社会 科学 诸多 领域 的 许多 
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重大 问题 , 它 以 人 及 社会 为 对 象 , 研 究 其 建 模 、 实 验 及 评价 方法 ,进而 帮助 解决 社会 
经 济 ,政治 等 领域 的 诸多 难题 。 

虽然 ,传统 社会 科学 领域 已 经 建立 了 一 套 基 于 数学 的 定量 研究 方法 ,但 是 ,这 
些 理论 方法 在 解决 现实 问题 时 ,往往 得 出 截然 相反 的 结论 。 其 重要 原因 在 于 这 些 
理论 所 使 用 的 模型 往往 忽略 了 现实 生活 中 的 某 些 因 素 。 现 实 世 界 是 一 个 复杂 的 系 
统 , 现 实 志 界 中 的 个 体 是 相互 联系 、 相 互 作用 的 ,人 们 可 以 用 简单 直观 的 数学 理论 
描述 某 个 或 某 类 个 体 在 某 个 时 刻 的 行为 , 却 很 难 用 其 描述 整个 现实 世界 的 经 济 和 
社会 行为 。20 世纪 70 年 代 , 某 些 研究 机 构 开 始 注意 到 人 类 社会 中 经 济 和 社会 系 
统 的 复杂 性 ,并 开创 了 复杂 性 科学 的 研究 领域 。 计 算 机 以 其 强大 的 计算 能 力 ,成 为 
人 们 研究 复杂 系统 的 基本 工具 。 学 者 们 提出 了 复杂 性 的 相关 理论 ,使 用 计算 机 进 
行 复杂 系统 模拟 和 仿真 ,并 观察 系统 的 相关 行为 。 在 此 基础 上 , 随 着 东欧 社会 的 变 
革 , 相 关 研 究 人 员 提 出 了 “人 工 社 会 "“ 人 工科 学 ”等 概念 ,以 利于 研究 信息 技术 对 
社会 和 文化 的 冲击 和 影响 ,进而 形成 了 一 系列 研究 复杂 性 科学 的 方法 。 

导致 人 们 更 加 重视 这 种 宏观 层面 上 社会 计算 研究 的 一 个 直接 推动 力 是 美国 的 

" 11? 恐怖 事件 。 该 事件 使 得 人 们 意识 到 政府 应 当 充分 利用 各 种 信息 技术 所 获 
取 的 信息 数据 ,挖掘 数据 信息 ,并 结合 社会 变化 情况 ,制定 合理 .适宜 的 社会 政策 。 
因此 ,如 何 合理 地 建立 人 类 社会 模型 ,用 计算 机 进行 模拟 测试 并 验证 社会 经 济 政 
策 的 效果 ,成 为 整个 社会 的 一 个 迫切 需求 。 从 社会 科学 角度 上 看 ,虽然 社会 计算 在 
一 些 领域 已 经 有 了 一 定 的 研究 成 果 , 然 而 由 于 社会 系统 的 复杂 性 ,在 理论 和 实践 
中 ,仍然 有 许 许多 多 的 问题 需要 进一步 研究 和 解决 。 毫 无 疑问 ,人 工 社会 的 研究 成 
果 将 会 成 为 社会 理论 研究 和 未 来 政策 制定 的 基础 ,但 其 研究 将 是 一 个 长 期 的 过 程 。 
人 们 仍然 需要 研究 如 何 有 效 地 结合 社会 科学 和 计算 科学 ,并 最 终 建立 一 套 符合 科 
学 规则 的 社会 科学 体系 。 

显然 ,从 不 同 的 角度 ,对 社会 计算 会 有 不 同 的 理解 ; 甚至 从 同一 角度 , 随 着 相 
关 技 术 的 日 新 月 异 , 对 社会 计算 的 定义 也 不 尽 相 同 。 因 此 ,要 正确 认识 社会 计算 ， 
就 要 深刻 认识 社会 计算 的 本 质 。 虽然, 各 种 各 样 的 社会 软件 给 我 们 贡献 了 海量 的 
社会 行为 数据 ,例如 Facebook、Twitter 等 都 网 罗 了 海量 的 用 户 , 人 们 在 其 上 进行 
的 文字 、 图 片 甚至 视频 交流 。 然 而 ,人 们 使 用 这 些 社会 软件 进行 日 常 交 流 是 否 就 意 
味 着 其 是 社会 计算 ? 我 们 认为 ,这 些 行为 并 不 能 解决 现实 社会 中 的 相关 问题 , 因 
此 ,还 不 能 称 作 真 正 的 社会 计算 。 社 会 计算 的 本 质 是 通过 社会 群体 的 力量 ,提升 现 
有 解决 问题 的 能 力 , 包 括 计算 能 力 、 信 息 整合 能 力 、 社 会 行为 与 社会 模型 构建 .分 析 
和 实验 能 力 等 。 在 此 基础 上 ,我 们 认为 社会 计算 是 以 社会 科学 理论 为 指导 ,以 现代 
计算 科学 技术 为 工具 ,充分 利用 社会 群体 的 力量 ,提升 计算 能 力 、 信 息 整合 .知识 发 
现 , 决 策 支持 ,社会 建 模 、 社 会 模型 分 析 与 实验 等 方面 的 能 力 ,进而 解决 社会 科学 问 


题 的 理论 .方法 ,手段 ,技术 和 计算 系统 。 
1.2 社会 计算 研究 内 容 


社会 计算 旨 在 使 用 计算 科学 手段 ,融合 社会 的 力量 ,提高 计算 ,信息 整合 、 知 识 
发 现 、 决 策 支 持 、 社 会 建 模 、 分 析 和 实验 等 的 能 力 。 围 绕 社会 计算 的 本 质 , 现 阶段 ， 
针对 社会 计算 的 研究 主要 有 群体 智慧 .数据 集成 .数据 挖掘 、 决 策 支 持 分 析 、 社 会 网 
络 建 模 ,社会 个 体 和 群体 建 模 和 分 析 等 。 图 1. 1 描述 了 社会 计算 研究 内 容 的 层次 
结构 图 。 社 会 计算 的 研究 内 容 主要 可 以 分 为 三 个 层次 数据 层 、 模 型 层 和 应 用 层 。 
目前 ,针对 社会 计算 的 研究 ,其 主要 实验 资料 来 源 于 社会 化 媒体 。 数 据 层 主要 研究 
社会 化 媒体 以 及 社会 化 媒体 的 数据 获取 和 知识 表示 。 由 于 人 们 可 获取 的 资料 来 源 
越 来 越 多 ,因此 ,为 了 获取 更 全 面 的 社会 网 络 结构 和 用 户 信息 ,人 们 还 需要 对 多 个 
社会 化 媒体 进行 数据 集成 。 社 区 发 现 是 进行 社会 建 模 和 分 析 的 基础 ,社区 发 现 和 
社会 建 模 与 分 析 是 模型 层 的 核心 内 容 。 基 于 所 构建 的 分 析 模 型 ,应 用 层 研究 群体 
智慧 ,知识 发 现 和 决策 支持 。 


应 用 层 


群体 智慧 | -| 知识 发 现 上 ~| 决策 支持 


跨 平台 社会 媒体 
数据 集成 


取 与 知识 表示 


图 1.1 社会 计算 研究 内 容 的 层次 结构 图 


1.2.1 数据 集成 


随 着 Web 2. 0 技术 的 发 展 和 Web 3. 0 概念 的 提出 ,互联 网 上 涌现 出 了 许 许 
多 多 的 Web 应 用 和 网 站 ,并 吸引 了 大 量 的 用 户 。 同 时 ,这 些 用 户 又 贡献 出 海量 
的 社会 行为 数据 。 而 这 些 数据 是 现 阶段 进行 社会 计算 研究 的 主要 资料 来 源 。 不 
同 的 网 站 , 因 其 功能 不 同 ,用 户 的 使 用 目的 不 同 ,因而 ,所 贡献 的 数据 性 质 不 同 。 
为 了 能 够 获取 更 完整 的 社会 网 络 结构 及 社会 网 络 结构 中 各 用 户 较 为 完整 的 数据 
信息 ,进而 完成 更 为 全 面 的 数据 挖掘 和 知识 发 现 ,人 们 需要 对 这 些 网 站 进行 数据 
集成 。 

在 这 些 网 站 中 ,用 户 是 核心 ,也 是 连接 这 些 网 站 的 天 然 纽带 。 因 此 ,对 这 些 网 
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站 进行 数据 集成 最 有 效 的 方法 就 是 在 对 用 户 进行 识别 的 基础 上 融合 网 站 。 
1.2.2 社区 发 现 


社区 效应 是 社会 网 络 中 的 一 种 普遍 现象 。 在 不 同 的 社会 网 络 中 ,人 们 发 现 个 
体 之 间 往 往 存在 某 些 共同 的 特性 ,也 即 社区 效应 。 社 区 又 称 组 群 、 簇 或 模块 等 , 它 
是 指 内 部 之 间 联 系 紧 密 ,与 外 部 联系 稀 玻 的 一 组 个 体 。 社 区 是 社会 分 析 中 的 一 个 
基本 概念 。 从 巨大 的 社会 网 络 中 挖掘 出 社区 即 是 社区 发 现 的 过 程 。 社 区 发 现 有 助 
于 其 他 社会 计算 任务 的 进行 和 完成 ,因此 ,社区 发 现 是 社会 网 络 分 析 的 一 个 基本 
年 务 。 

社区 的 发 现 技术 ,从 最 初 的 图 分 割 方法 、W-H 算法 、 层 次 聚 类 法 .GN 算法 等 基 
本 算法 ,逐渐 发 展 和 改进 ,形成 了 包括 改进 GN 算法 、. 派 系 过 滤 算 法 .局 部 社区 算法 
和 Web 社区 发 现 方法 在 内 的 更 具 操作 性 的 方法 。 网 络 的 社区 发 现 可 为 个 性 化 服 
务 ,信息 推送 等 提供 基本 数据 ,尤其 是 在 信息 时 代 , 社 区 的 存在 更 加 普遍 ,发 现 技术 
应 用 更 加 方便 ,其 商业 价值 和 服务 价值 更 大 。 


1.2.3 群体 智慧 


当 独 立 的 个 体 合作 足够 紧密 时 ,其 所 组 成 的 群体 就 和 单一 的 机 体 没有 多 少 
差别 ,并 具有 更 强大 的 能 力 。 社 会 是 社会 个 体 的 集合 , 它 组 成 了 更 高 的 智能 ,并 
在 计算 能 力 等 众多 方面 超越 了 个 体 。 因 此 ,社会 计算 中 ,群体 智慧 的 研究 可 能 会 
包含 社会 科学 、 计 算 科 学 与 群众 行为 的 研究 。 有 时 ,人 们 又 将 群体 智慧 称 为 集体 

Web 2.0 的 交互 性 ,使 得 人 们 可 以 便捷 地 发 布 自身 的 内 容 。 群 体 智慧 建立 在 
现 有 信息 技术 和 网 络 化 的 基础 上 ,可 提高 现 有 知识 的 社会 贡献 以 及 知识 发 现 的 能 
力 。 与 个 体 智慧 相 比 ,群体 智慧 不 仅 是 所 有 文化 在 数量 上 的 贡献 , 它 还 是 所 有 文化 
在 质量 上 的 贡献 。 


1.2.4 知识 发 现 与 决策 支持 


知识 发 现 又 称 数 据 挖掘 。 它 是 从 社会 化 媒体 所 表示 的 信息 中 ,根据 不 同 的 应 
用 需求 ,识别 出 有 效 的 、 新 颖 的 、 潜 在 有 用 的 以 及 最 终 可 理解 的 模式 和 知识 的 非 平 
凡 过 程 。 知 识 发 现 的 目的 在 于 从 细节 烦琐 的 社会 数据 中 提炼 出 有 意义 的 ,简洁 的 
知识 ,从 而 为 决策 支持 提供 依据 。 知 识 发 现 为 决策 支持 提供 决策 依据 ,决策 支持 是 
知识 发 现 的 目的 。 只 有 将 所 发 现 的 知识 应 用 于 实际 问题 的 解决 , 才 是 社会 计算 的 
核心 和 本 质 。 在 社会 计算 中 ,知识 发 现 和 决策 支持 的 研究 包括 情感 分 析 、 和 与 情 分 
析 、 识 别 与 预测 、 营 销 服 务 以 及 各 种 个 性 化 服务 等 。 


1.3 本 章 小 结 


社会 计算 是 一 门 新 兴 的 多 学 科 融 合 的 交叉 学 科 , 它 是 现代 计算 机 技术 与 社会 
科学 紧密 结合 的 产物 ,为 社会 科学 研究 和 解决 社会 问题 打开 了 一 扇 全 新 的 计算 之 
门 。 本 章 首先 阑 述 了 社会 计算 在 一 般 意 义 下 的 定义 ,从 不 同 角度 和 层面 详细 分 析 
了 对 于 社会 计算 的 理解 ; 其 次 ,阐述 了 当前 社会 计算 的 主要 研究 内 容 , 并 给 出 了 相 
关 研 究 内 容 的 层次 结构 图 。 


思考 题 


1. 从 一 般 意义 上 , 谈 谈 你 对 社会 计算 的 理解 。 

2. 与 传统 的 社会 科学 比较 ,你 认为 社会 计算 在 社会 问题 的 研究 方法 与 研究 内 
容 会 有 哪些 不 同 ? 特点 是 什么 ? 

3. 目前 ,社会 计算 的 主要 研究 内 容 是 什么 ? 谈 谈 你 对 这 些 内 容 的 理解 。 


社会 化 媒体 及 其 知识 表示 


本 章 学 习 目标 

。 理解 社会 化 媒体 的 概念 

。 熟悉 主流 的 社会 化 媒体 平台 

。 了解 社会 化 媒体 的 数据 获取 方法 
。 熟练 掌握 社会 网 络 分 析 软 件 的 使 用 


2.1 社会 化 媒体 定义 


社会 化 媒体 是 人 们 彼此 之 间 用 来 分 享 意见 、 见 解 、 经 验 和 观点 的 工具 和 平台 ， 
是 一 种 提供 给 用 户 极 大 参与 空间 的 新 型 媒体 。 它 的 形式 多 样 化 ,文本 、 图 片 、 视 频 
及 语音 都 可 以 通过 社会 化 媒体 进行 传播 。 早期 的 维基 百科 、 论 坛 . 博 客 和 近年 来 发 
展 势头 正 盛 的 微 博 、 人 人 网 都 是 其 中 的 代表 。 社 会 化 媒体 在 Web 2.0 的 时 代 下 兴 
起 ,区 别 于 以 技术 为 创新 点 的 Web 1.0 时 代 , Web 2.0 强调 的 是 技术 与 用 户 的 结 
合 。 社 会 化 媒体 中 的 用 户 不 仅仅 是 互联 网 的 浏览 者 ,更 是 信息 的 制造 者 。 网 络 用 
户 自发 创造 贡献 .提取 并 传播 信息 的 过 程 构成 了 社会 化 媒体 的 基本 生命 周期 。 
社会 化 媒体 具有 以 下 特征 。 
。 参 与 : 社会 化 媒体 最 大 的 特征 就 是 非常 强 的 网 络 用 户 参 与 性 。 用 户 是 信息 
的 提供 者 .评论 者 ,这 些 信息 填充 .丰富 了 社会 化 媒体 的 基本 框架 。 
*。 公开: 大 部 分 的 社会 化 媒体 允许 .鼓励 互联 网 用 户 参与 发 布 ` 评 论 和 分 享 信 
息 , 除 了 有 隐私 保护 的 内 容 之 外 ,社会 化 媒体 的 内 容 是 向 用 户 公开 的 。 
* 交流 : 社会 化 媒体 中 ,信息 是 双向 传播 的 , 即 实现 了 媒体 与 大 众 的 信息 


交流 。 
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。 社 区 化 ; 社会 化 媒体 注重 集体 智慧 ,用 户 可 以 通过 现实 世界 的 关系 网 络 或 
个 人 兴趣 等 方式 建立 ` 发 现 属于 自己 的 社区 。 

。 多 样 性 : 社会 化 媒体 的 形式 不 再 是 单一 的 文本 ,图片 .视频 和 语音 都 可 以 用 
来 传递 信息 。 

。 多 平台 : 社会 化 媒体 的 承载 平台 具有 多 样 性 ,网 页 .计算 机 及 手机 客户 端 等 
都 可 以 通过 接 人 互联 网 作为 服务 平台 。 

从 Web 1.0 到 如 今 的 社会 化 媒体 ,互联 网 提供 给 其 用 户 的 服务 越 来 越 接近 人 
类 社会 的 结构 与 交流 方式 。 社 会 化 媒体 中 ,集体 智慧 更 胜 于 个 人 智慧 。 维 基 百 科 
就 是 其 中 非常 典型 的 代表 ,3200 万 登记 用 户 为 完善 这 一 百科 全 书 编辑 总 数 超过 12 
亿 次 。 微 博 也 是 集体 智慧 的 体现 ,一 个 拥有 100 万 粉丝 的 账号 在 一 瞬间 就 可 以 同 
时 向 100 万 人 传递 消息 ,因此 微 博 中 的 每 一 个 见闻 每 一 条 消息 都 可 能 以 裂变 式 的 
速度 传播 。 人 人 网 的 构建 所 依赖 的 正 是 群体 关系 ,人 们 将 现实 社会 中 的 人 际 关系 
和 活动 转移 到 互联 网 中 ,实现 了 互联 网 从 虚拟 走向 现实 的 跨越 。 社 会 化 媒体 的 多 
样 性 与 交互 性 ,使 它 成 为 互联 网 用 户 的 宠儿 ,人 们 已 经 将 自己 社交 生活 的 一 部 分 交 
给 了 社会 化 媒体 。 

不 难看 出 ,社会 化 媒体 在 互联 网 中 占据 了 非常 重要 的 位 置 。 同 时 ,对 社会 化 媒 
体 的 研究 也 是 非常 有 必要 的 。 一 方面 ,社会 化 媒体 对 维持 互联 网 的 信息 传播 .网 络 
的 稳定 及 其 他 属性 是 至 关 重 要 的 , 另 一 方面 ,社会 化 媒体 的 分 析 技 术 可 应 用 于 互联 
网 以 及 现实 社会 的 拓展 中 。 

那么 ,应 该 如 何 着 手 研 究 社会 化 媒体 呢 ? 正如 前 文 所 说 ,社会 化 媒体 强调 的 是 
技术 与 用 户 服务 的 结合 。 同 时 ,用 户 服务 在 社会 化 媒体 中 更 多 地 体现 出 用 户 之 间 
的 社会 结构 ,社会 活动 等 特点 。 因 此 ,对 社会 化 媒体 的 研究 可 以 从 技术 与 社会 科学 
入 手 , 挖 掘 两 者 之 间 的 关系 、 特 点 等 问题 。 社 会 计算 正 是 将 现代 计算 技术 与 社会 科 
学 相 融 合 的 交叉 学 科 。 社 会 计算 是 面向 社会 活动 ,社会 过 程 和 社会 结构 等 的 计算 
理论 和 方法 。 对 于 社会 化 媒体 而 言 , 网 络 用 户 不 仅仅 是 受众 群体 ,更 是 信息 的 来 
源 。 通 过 社会 计算 的 方法 与 技术 ,可 以 运用 数据 深入 分 析 网 络 用 户 的 行为 ,探索 网 
民 的 关注 点 ,提取 用 户 的 社交 关系 网 络 及 挖掘 潜在 的 可 利用 信息 等 。 


2.2 社会 化 媒体 分 类 


社会 化 媒体 既是 一 种 服务 .一 种 工具 ,也 是 一 种 媒体 、 一 种 平台 。 

立足 于 使 用 者 的 个 人 角度 ,社会 化 媒体 作为 一 种 工具 为 用 户 提供 了 与 朋友 交 
流 ( 社 交 网 站 ) ,实时 跟 进 新 闻 事件 进展 ( 微 博 ) 、 获 取 参 考 知 识 (维基 百科 ) 、 满 足音 
像 娱 乐 需求 (优酷 .虾米 )、 聚 集 不 同 渠 道 的 信息 (RSS) 等 服务 。 
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从 另 一 个 角度 来 看 ,社会 化 媒体 的 媒体 属性 十 分 明显 。 在 社会 化 媒体 的 平台 
上 ,无 数 的 个 人 、 非 个 人 信息 经 由 网 络 中 结 点 (人 ) 的 不 断 过 滤 和 传播 ,迅速 在 网 络 
中 传播 扩散 ,每 则 信息 可 能 被 传播 的 范围 与 其 所 蕴涵 的 价值 成 正比 ,引起 不 同 的 社 
会 反响 。 在 某 些 热点 领域 ,甚至 能 产生 超越 传统 媒体 的 影响 力 。 无 论 如 何 , 社 会 化 
媒体 都 具有 一 个 共同 的 特点 : 内 容 、 消 息 和 知识 的 消费 者 也 是 相应 的 生产 者 。 现 
有 的 社会 化 媒体 从 其 表现 形式 .运作 模式 .采用 的 技术 以 及 其 对 自身 的 定位 等 方面 
可 以 明显 地 分 为 几 个 类 别 。 


2.2.1 博客 


博客 又 称 为 网 络 日 志 、 部 落 格 等 ,是 一 种 由 个 人 或 组 织 管理 .不 定期 张贴 新 的 
文章 的 网 站 。 博 主 (blogger) 通 常 专注 于 特定 领域 ,多 发 布 较为 完整 .主题 明确 的 
原创 文字 。 

与 其 他 社会 化 媒体 相 比 较 , 博 客 具备 的 特征 包括 : 拥有 明确 的 个 人 领域 特征 ， 
博客 中 显示 的 均 为 与 博 主 相关 的 内 容 ; 实时 性 较 弱 ,不 会 有 信息 流 的 表现 形式 ; 允 
许 交互 ,但 交互 功能 并 非 其 核心 价值 ; 创作 的 内 容 比 较 完整 ,通常 聚焦 于 博 主 日 常 
关注 的 领域 , 且 内 容 多 属 可 沉淀 的 内 容 ,不 易 失 效 ; 通常 包含 大 量 有 价值 信息 , 具 
有 较 强 的 参考 价值 。 当 前 博客 领域 并 未 出 现 一 家 独 大 或 寡头 鸡 断 的 市 场 格局 ,在 
常见 的 新 浪 博客 .网 易 博 客 等 博客 平台 外 ,更 多 精品 博客 以 个 人 博客 的 形式 出 现 ， 
使 用 由 个 人 维护 的 独立 域名 而 并 不 依附 于 平台 之 上 。 


2.2.2 社交 网 络 


社交 网 络 全 称 Social Networking Service, 即 社会 网 络 服务 ,一 种 可 以 提供 多 
种 交流 、 交 互 渠道 的 互联 网 应 用 服务 , 旨 在 帮助 用 户 在 网 络 中 建立 并 维护 社交 关 
系 。 而 更 多 时 候 SNS 是 指 Social Network Site, 指 基于 用 户 的 关系 网 络 并 为 其 提 
供 SNS 服务 的 平台 网 站 。 在 这 个 网 站 中 ,用 户 因 朋 友 关 系 或 是 兴趣 聚合 成 一 个 个 
社区 ,信息 在 社区 内 流转 并 引起 共鸣 。 

社交 网 络 最 明显 的 特征 在 于 用 户 的 社区 化 ,用 户 通 过 好 友 关 系 或 是 共同 的 兴 
趣 形成 诸多 重 释 的 动态 社区 ,五花八门 的 信息 在 社区 内 进行 流转 和 扩散 。 社 区 化 
带 来 的 优势 在 于 ,联系 紧密 的 社区 内 的 用 户 间 拥 有 较 高 的 信任 度 , 信 息 在 社区 内 可 
以 做 到 快速 流转 , 且 被 用 户 认真 阅读 并 获得 信任 。 但 与 此 同时 ,社区 内 的 紧密 度 与 
社区 间 壁 又 的 坚固 度 是 呈 反 比 关系 的 ,紧密 的 社区 网 络 代 表 社 区 内 的 用 户 结构 较 
为 稳定 ,并 没有 频繁 的 新 用 户 加 入 、 老 用 户 撤 出 ,而 多 个 社区 间 的 重 全 程度 是 远 小 
于 整个 平台 中 的 社区 规模 的 。 这 意味 着 信息 极 易 被 社区 分 割 成 一 个 个 孤岛 ,在 整 
个 网 络 中 ,用 户 看 到 的 内 容 只 能 是 由 好 友 推 荐 来 的 小 部 分 信息 ,信息 往往 很 难 实现 
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跨 多 个 社区 的 流转 。 

在 结构 上 ,社交 网 络 是 一 种 旋涡 式 内 和 敛 的 结构 , 群 聚 效应 非常 明显 。 一 个 现实 
的 圈子 中 使 用 该 平台 的 人 越 多 ,就 会 继续 吸引 更 多 的 人 进入 这 个 平台 ,而 活跃 用 户 
的 增长 会 继续 增加 用 户 对 平台 的 黏度 ; 但 一 旦 平台 上 的 用 户 开始 流失 并 到 一 定 程 
度 后 ,小 圈子 的 结构 会 开始 角 演 ,用 户 持 续 流失 其 至 令 此 社区 消失 。 因 此 用 户 间 的 
交互 是 平台 的 核心 价值 所 在 ,只 有 用 户 间 的 频繁 交互 才能 令 用 户 以 更 高 的 热情 持 
续 使 用 该 平台 ,增强 用 户 黏度 ,避免 用 户 流失 。 

社交 网 络 的 具体 产品 繁多 ,具体 可 以 分 为 两 个 类 别 。 一 是 基于 好 友 关 系 的 强 
关系 社交 网 站 ,以 Facebook、 人 人 网 、 开 心 网 为 代表 。 在 这 类 网 站 中 ,社区 结构 借 
助 用 户 间 的 好 友 关 系 形成 ,信息 借助 好 友 的 推介 进行 流转 。 另 一 类 是 基于 内 容 的 
弱 关 系 社交 网 站 ,以 Flickr、 豆 辩 、 时 光 网 为 代表 。 在 这 类 网 站 中 社区 结构 是 基于 
对 主题 .内容 的 区 隔 形成 的 : 用 户 根 据 自己 的 爱好 聚集 在 某 个 主题 或 内 容 周 围 形 
成 社区 ,而 由 于 主题 的 限定 ,其 下 的 信息 更 是 被 局 限于 此 区 域内 ,几乎 不 会 发 生 跨 
社区 的 流转 。 


2.2.3 微 博 


微 博 即 微 博客 的 简称 ,是 一 个 立足 于 用 户 关系 、 信 息 分 享 、 传 播 以 及 获取 的 平 
台 。 用 户 可 以 建立 关注 (Follow) 关 系 , 以 140 字 左 右 的 文字 更 新 信息 ,并 实现 即时 
分 享 ,是 社交 网 络 的 一 种 特殊 形式 。 

虽然 名 字 是 征 博 客 ,但 与 博客 相 比 , 其 定位 、 功 能 等 实际 表现 明显 更 接近 于 社 
交 网 站 ,较为 特殊 的 是 , 微 博 中 的 关系 基础 是 单 向 的 关注 机 制 ,用 户 间 因 实 际 的 朋 
友 关 系 互相 关注 与 用 户 因 兴 趣 对 其 他 用 户 单 向 关注 的 情况 共存 ,使 得 微 博 中 强 弱 
关系 交织 在 一 起 ,形成 了 更 为 复杂 的 社区 结构 。 除 此 之 外 , 微 博 中 组 织 用 户 大 量 驻 
扎 且 具有 相当 的 活跃 度 ,在 个 人 用 户 多 在 发 送 社会 意义 极 小 的 生活 琐碎 信息 的 同 
时 ,组 织 用 户 发 送 严谨 的 通告 类 信息 ,并 引发 大 量 个 人 用 户 参 与 讨论 , 令 信息 流 中 
具有 社会 意义 的 信息 比例 增长 ,更 具有 阅读 和 研究 价值 。 


2.2.4 分 享 平台 


分 享 平台 是 一 个 概括 的 称呼 ,包括 YouTube、 优 酷 等 视频 分 享 平台 ,虾米 为 代 
表 的 音乐 分 享 平台 ,Flickr、Instagram 等 图 片 分 享 平 台 以 及 MBALib 百度 文库 等 
文档 资源 分 享 平台 。 

此 类 社会 化 媒体 均 专 注 于 某 一 类 型 领域 ,以 分 享 为 核心 价值 ,向 各 自 的 方向 发 
展 ,但 具有 几 个 共同 之 处 。 

首先 ,分 享 平台 中 所 涵盖 的 内 容 完 全 覆盖 并 超出 其 对 应 传统 媒体 的 内 容 。 这 
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有 两 重 的 含义 ,一 是 传统 媒体 中 的 热门 资源 ,会 被 用 户 分 享 到 线 上 ,在 为 平台 带 来 
大 量 流量 的 同时 也 反 过 来 帮助 传统 媒体 吸引 关注 和 人 气 ; 同时 许多 由 于 资源 限制 
而 被 传统 媒体 放弃 或 忽视 的 长 尾 资源 可 以 在 线 上 展示 ,而 这 正 是 分 享 平台 明显 胜 
于 传统 媒体 之 处 。 

其 次 ,用 户 间 的 互动 并 不 贡献 新 的 内 容 ,而 是 成 为 用 户 活 跃 的 动力 组 成 。 其 他 
社会 化 媒体 中 用 户 间 的 互动 同样 是 整体 内 容 很 重要 的 一 部 分 ,但 在 分 享 平台 中 ,用 
户 间 的 互动 往往 从 属于 某 些 信息 之 下 ,并 且 更 多 的 是 在 扮演 一 种 推动 用 户 分 享 行 
为 的 动力 源 的 角色 。 在 这 里 ,用 户 间 的 互动 更 多 的 是 通过 “ 先 *"“ 顶 ”“ 踩 ”这 类 的 
方式 来 进行 ,并 为 上 传 资源 的 用 户 带 来 成 就 感 ,鼓励 其 分 享 的 行为 。 在 单纯 的 用 户 
互动 之 外 ,平台 本 身 往往 会 推出 各 种 形式 的 积分 勋章 等 形式 ,以 鼓励 用 户 进 行 
分 享 。 

另外 ,分 享 平台 对 于 数据 挖掘 、 推 荐 算法 等 技术 的 需求 更 高 。 在 分 享 平台 中 ， 
用 户 间 的 联系 并 不 紧密 ,用 户 获取 信息 的 来 源 极 少 来 自 好 友 的 推介 ,这 种 途径 的 缺 
失 使 得 为 用 户 推 送 更 适合 其 口味 的 内 容 需 要 其 他 有 效 方法 的 补充 ,以 提高 用 户 夭 
度 。 为 了 达成 这 一 目标 ,传统 的 分 类 点 击 排行 需要 考虑 许多 新 的 因素 ,例如 内 容 的 
时 效 性 .主题 的 即时 流行 程度 ,不 同类 型 用 户 的 差异 化 的 时 间 分 布 . 具 体内 容 分 类 
的 模糊 性 等 因素 ; 而 在 点 击 排行 之 外 ,还 需要 有 基于 内 容 相似 性 的 推荐 、 基 于 用 户 
相似 度 的 推荐 以 及 其 他 个 性 化 推荐 的 方式 作为 补充 。 

最 后 ,分 享 平 台 打破 传统 媒体 中 的 诸多 限制 ,用 户 可 以 随时 随地 浏览 内 容 , 这 
也 是 许多 用 户 以 浏览 视频 网 站 取代 收看 电视 的 习惯 的 原因 。 这 带 来 的 另 一 个 好 处 
是 ,分 享 平台 可 以 以 较 小 的 边际 成 本 为 用 户 提供 便利 的 检索 渠道 。 


2.2.5 论坛 


论坛 全 称 为 Bulletin Board System 或 者 Bulletin Board Service, 是 一 种 强 交 互 
性 的 电子 信息 服务 系统 ,用 户 可 在 BBS 站 点 上 以 公开 的 形式 获取 ,发布 信息 并 与 
其 他 用 户 讨论 。 论 坛 可 以 覆盖 的 范围 极其 广泛 , 既 可 以 有 综合 型 的 论坛 ,也 可 以 有 
深入 度 极 高 的 专题 论坛 。 论 坛 一 般 由 站 长 创建 ,并 设立 各 级 管理 人 员 协 助 管理 。 
创办 者 可 依据 其 创建 理念 界定 论坛 的 主题 .讨论 的 范围 .论坛 内 的 行为 规则 以 及 管 
理 人 员 的 具体 权限 等 。 

论坛 最 大 的 特点 在 于 尽管 大 量 存在 ,但 并 不 形成 稳定 的 关系 网 络 。 具 体 表现 
为 , 当 其 他 社交 网 站 中 的 用 户 尽 可 能 地 维护 当前 账户 的 存在 感 、 可 信和 度 以 及 关系 网 
络 时 ,论坛 中 并 没有 成 熟 的 结交 和 维系 朋友 关系 的 功能 模块 ,同时 许多 用 户 使 用 新 
的 账号 来 避免 发 言 被 锁定 ,以 达成 在 讨论 中 说 出 更 加 符合 自己 内 心 的 想法 而 不 必 
有 后 顾 之 忧 的 目的 。 这 是 一 种 优点 ,让 用 户 可 以 真正 不 受 拘束 地 畅所欲言 ,但 同时 
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也 存在 商 端 ,因为 可 以 不 必 为 自己 的 发 言 负责 , 造 衣 、 挑 起 争端 等 会 破坏 论坛 甚至 
是 整个 网 络 风气 的 事情 层 出 不 绝 , 带 来 网 络 时 代 的 诚信 和 危机 ,而 论坛 中 所 有 信息 的 
真实 性 和 可 靠 性 值得 推 戎 。 


2.2.6 知识 协作 


知识 协作 是 一 个 可 以 供 多 人 协同 协作 的 系统 。Wiki 站 点 可 以 由 多 人 (甚至 
任何 访问 者 ) 维 护 ,每 个 人 都 可 以 浏览 、 创 建 或 更 改 Wiki 文 本 ,对 共同 的 主题 进 
行 扩 展 或 者 探讨 ,实现 快速 的 信息 整合 ,而 Wiki 的 写作 者 也 自然 构成 了 一 个 
社 群 。 

Wiki 最 主要 的 特征 在 于 其 开放 性 。 开 放 性 是 指 社 群 内 的 用 户 可 任意 创建 、 修 
改 或 删除 页 面 ,而 这 些 变化 可 被 任意 来 访 者 观察 到 。 开 放 性 使 得 Wiki 具有 可 增长 
与 可 汇聚 等 特征 ,页 面 内 的 任意 概念 均 可 通过 链接 创建 新 的 页 面 ,通过 这 种 方式 系 
统 可 以 不 断 地 增长 ; 而 系统 内 多 个 内 容重 复 的 页 面 可 以 被 汇聚 于 其 中 的 某 个 页 面 
中 ,并 改变 相应 的 链接 结构 。 

Wiki 作为 一 个 群体 协作 的 平台 ,写作 社 群 内 的 用 户 间 享有 平等 的 地 位 ,并 不 
因 其 受 欢 迎 等 因素 拥有 书写 内 容 被 优先 录用 的 特权 。 而 在 其 他 社交 平台 中 ,往往 
更 具 人 气 的 用 户 其 发 布 的 内 容 被 传播 的 范围 更 大 ,从 这 个 方面 上 来 说 , Wiki 拥有 
比 其 他 平台 更 加 平等 的 特点 。 由 于 内 容 完 全 由 用 户 创作 ,所 以 鼓励 用 户 进行 高 质 
量 的 内 容 创作 是 Wiki 平台 的 核心 所 在 。 通 常情 况 下 ,平台 会 建立 较为 完整 的 积 
分 .荣誉 等 奖励 体系 ,激发 并 依靠 用 户 的 成 就 感 来 维系 其 创作 热情 。 

由 于 是 共 笔 性 质 , 创 作 、 审 核 均 鲜 有 专业 人 士 , 其 公信 力 受到 置疑 。 另 外 涉及 
政治 、 宗 教 的 文章 也 会 因 不 同 国家 、 政 治 立 场 或 不 同 语言 用 户 背景 的 影响 ,导致 出 
现 编辑 战 审 查 或 屏蔽 。 网 络 百 科 的 编者 往往 只 是 义务 参与 撰写 ,并 不 是 该 领域 的 
专家 ,种 种 因素 都 使 网 络 百科 全 书 的 素质 比 不 上 传统 百科 全 书 , 在 较为 严肃 的 时 刻 
并 不 够 可 靠 。 


2.2.7 即时 通信 


即时 通信 是 一 种 基于 互联 网 的 即时 通信 服务 ,国外 以 MSN (Microsoft Service 
Network) 为 代表 ,国内 则 以 腾讯 QQ 为 代表 。 即 时 通信 利用 互联 网 线路 ,通过 文 
字 、 图 片 . 语 音 、 视 频 、 文 件 等 多 种 方式 进行 交流 与 互动 ,为 用 户 提 供 更 加 便捷 和 经 
济 的 沟通 渠道 ,同时 成 为 人 们 工作 .学习 交 流 的 平台 。 

大 部 分 的 即时 通信 服务 提供 到 场 提醒 (Presence Awareness) 的 特性 一 一 显示 
联络 人 名 单 .联络 人 是 否 在 线 上 以 及 能 否 与 联络 人 交谈 。 各 即时 通信 程序 相互 独 
立 ,无 法 互通 ,这 使 得 即时 通信 软件 之 间 的 斗争 极为 激烈 。 目 前 互联 网 与 移动 互联 
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网 市 场 中 占有 率 较 大 的 即时 通信 软件 包括 QQ MSN 、Skype、 微 信和 与 WhatsApp。 

随 着 即时 通信 发 展 的 成 熟 ,即时 通信 软件 已 经 从 纯粹 的 实时 接收 和 发 送信 息 
的 应 用 软件 转变 为 一 个 集成 多 种 功能 的 平台 ,一 个 互联 网 入 口 。 在 交流 的 过 程 中 
随时 选取 并 搜索 聊天 中 出 现 的 内 容 , 显 示 交 流 对 象 最 近 的 社交 动态 ,根据 当前 位 置 
和 时 间 推 荐 商品 ,在 软件 保持 开启 状态 的 同时 推荐 并 播放 音乐 ,系统 会 话 窗口 通知 
有 新 的 未 读 邮件 ,上 述 已 经 实现 的 功能 融合 均 反映 出 即时 通信 软件 作为 互联 网 和 
移动 互联 网 人 口 ,集成 多 种 社交 媒体 的 可 操作 性 和 良好 前 景 。 


2.2.8 垂直 社区 


垂直 社区 是 针对 某 特定 人 群 或 特定 范围 内 容 的 社区 , 它 的 具体 实现 形式 不 受 
限制 ,可 以 是 社交 网 站 ,如 职业 社交 网 站 LinkedIn; 可 以 是 变种 的 论坛 ,如 专注 回 
答 的 百度 知道 .专注 美食 的 大 众 点 评 ; 可 以 是 传统 的 门户 网 站 ,如 面向 球迷 的 虎 扑 
网 。 其 共同 的 特点 包括 两 点 ,一 是 专注 于 固定 领域 ,二 是 用 户 贡 献 内 容 往 往 具 有 更 
高 的 质量 。 

用 户 的 需求 越 来 越 精 细 化 ,但 传统 的 综合 性 网 站 中 所 包含 的 超大 规模 数据 使 
得 用 户 对 某 特定 领域 的 信息 需求 需要 以 较 大 时 间 成 本 才能 得 到 满足 ,同时 得 到 的 
信息 往往 质量 参差 不 齐 ,数目 巨大 ,难以 方便 地 转化 为 用 户 掌 握 的 知识 。 在 这 样 的 
情况 下 ,用户 可 能 要 借助 搜索 引擎 来 帮助 自己 找到 需要 的 信息 。 但 搜索 引擎 的 不 
足 之 处 在 于 , 当 涉 及 较为 具体 的 问题 时 ,搜索 出 的 答案 往往 不 够 细致 和 充足 , 因 
为 搜索 引擎 存在 搜索 盲区 和 无 法 实现 全 文 搜索 的 局 限 。 此 时 ,垂直 社区 往往 能 
够 满足 用 户 的 需求 , 当 用 户 需 要 获取 一 本 书 的 评价 时 ,可 以 去 豆 辩 读书 进行 搜 
索 ; 需要 制作 旅游 攻略 时 ,可 以 在 蚂蚁 网 、 穷 游 网 等 网 站 中 获取 更 多 、 更 详细 的 
资料 和 经 验 。 

垂直 社区 的 优点 在 于 , 细 分 的 领域 意味 着 用 户 专注 于 这 一 领域 进行 深度 讨论 ， 
且 用 户 中 往往 包含 此 领域 内 的 专家 ,因此 在 垂直 社区 中 ,很 容易 找到 专业 水 准 极 高 
的 高 质量 内 容 。 垂 直 社 区 的 定位 使 得 导购 和 精准 广告 这 两 种 商业 模式 可 以 非常 容 
易 且 高 效 地 实现 。 


2.2.9 搜索 引擎 


搜索 引擎 是 指 自动 从 互联 网 上 搜集 信息 ,在 对 信息 进行 组 织 和 处 理 后 ,为 用 户 
提供 检索 服务 ,将 相关 的 信息 展示 给 用 户 的 系统 。 搜 索引 擎 包括 全 文 索 引 、 目 录 索 
引 、` 元 搜索 引擎 、 垂 直 搜 索引 擎 、 集 合式 搜索 引擎 门户 搜索 引擎 与 免费 链接 列表 
等 。 而 百度 和 谷歌 等 是 搜索 引擎 的 代表 。 

新 一 代 的 搜索 引擎 的 发 展 方向 是 个 性 化 搜索 ,在 猜测 用 户 的 真实 意图 和 挖掘 
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个 人 偏好 的 基础 上 为 用 户 呈 现 尽 可 能 符合 其 个 人 需求 的 搜索 结果 。 

在 个 性 化 的 搜索 引擎 技术 中 ,受到 业界 广泛 关注 的 是 社会 化 搜索 (Social 
Search) : 把 用 户 的 社交 网 络 加 入 搜索 引擎 中 ,让 用 户 的 朋友 来 为 搜索 结果 排序 。 
如 何 借 助 社交 网 络 的 平台 和 数据 开发 出 基于 社会 化 网 络 的 搜索 排序 算法 ,为 用 户 
提供 更 贴 合 他 们 需求 的 搜索 结果 ,Google、 雅 虎 和 百度 均 进 行 了 初步 的 尝试 。 而 除 
了 利用 社会 关系 来 进行 个 性 化 搜索 外 ,利用 个 人 信息 同样 是 一 个 探索 的 方向 。 例 
如 利用 位 置信 息 预 判 用 户 的 搜索 意图 ,利用 用 户 发 布 过 的 图 片 、 信 息 、 视 频 、 评 论 、 
曾经 的 搜索 历史 甚至 是 浏览 的 行为 轨迹 等 数据 ,对 搜索 的 真实 意图 、 用 户 的 喜好 等 
进行 预 判 ,来 提供 个 性 化 的 搜索 结果 。 

从 用 户 的 角度 看 ,新 一 代 的 搜索 将 会 是 一 种 连接 。 将 用 户 与 用 户 连 接 在 一 起 ， 
提供 好 友 采 纳 的 结果 为 用 户 提 供 决 策 支持 ; 将 用 户 与 产品 连接 在 一 起 ,提供 一 步 
到 位 的 购买 页 面 ,展示 跨 平台 的 商品 对 比 ; 将 用 户 与 信息 连接 在 一 起 ,为 用 户 整理 
有 价值 的 链接 甚至 是 直接 整理 信息 ,而 非 仅 提 供 非 智 能 的 链接 入 口 。 

新 一 代 的 搜索 引擎 在 传统 意义 之 上 向 前 增加 了 对 用 户 意图 的 预 判 ,向 后 增加 
了 对 信息 的 处 理 , 将 搜索 与 服务 直接 相连 。 而 在 这 种 个 性 化 的 智慧 搜索 的 背后 是 
大 数据 时 代 的 支撑 ,只 有 通过 对 用 户 行为 的 大 数据 的 提炼 与 分 析 , 才 能 洞察 搜索 背 
后 的 真实 需求 ,为 用 户 提 供 更 加 智能 的 搜索 服务 。 

虽然 不 同类 型 的 社会 化 媒体 边界 明确 , 较 易 区 分 ,但 在 现在 的 中 国 互 联网 市 场 
中 ,社会 化 媒体 产品 均 在 集成 多 种 类 型 ,增加 用 户 黏 度 ,抢占 市 场 。 典 型 的 代表 包 
括 两 类 。 

第 一 类 是 以 即时 通信 工具 为 人口 ,集成 多 种 社会 化 媒体 产品 ,使 用 统一 的 风格 
在 一 个 客户 端 进行 展示 。 例 如 腾讯 QQ, 将 腾讯 公司 的 其 他 社会 化 媒体 产品 ,如 朋 
友 网 (SNS)、 腾 讯 微 博 (Micro-Blog)、 搜 搜 (Search)、QQ 空间 (Blog)、QQ 音乐 
(Sharing) 等 集成 在 QQ 客户 端 中 。 用 户 可 很 方便 地 进行 多 个 产品 的 浏览 和 使 用 。 
类 似 的 在 手机 端 有 微 信 : 即时 通信 功能 、 与 博客 神似 的 订阅 账号 .SNS 类 的 朋友 圈 
等 聚合 在 一 个 客户 端 中 。 

另 一 类 则 提供 接口 或 增加 新 功能 ,而 非 将 产品 本 身 集 成 在 一 起 。 如 新 浪 微 
博 ,本身 是 微 博客 ; 由 于 对 字数 的 限制 ,用 户 无 法 利用 新 浪 微 博 进行 较 长 的 叙 
述 ,因此 引入 了 带 有 博客 色彩 的 长 博客 一 一 以 图 片 形 式 展示 博客 的 内 容 ; 提供 
博客 的 链接 ,用 户 可 在 创作 新 的 博客 后 ,在 微 博 中 自动 发 布 带 有 链接 的 摘要 ; 
多 媒体 嵌入 技术 引入 视频 分 享 与 音乐 分 享 ; 提供 具有 论坛 神韵 的 微 话题 功 
能 ,可 以 一 人 提出 话题 ,多 人 在 话题 下 留言 参与 话题 ; 提供 微 博 平台 内 的 全 文 
搜索 ,搜索 结果 排序 受用 户 关系 网 络 影响 ; 所 具备 的 私信 功能 同样 是 即时 通 
信和 的 一 种 。 
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2.3 主流 社会 化 媒体 


表 2. 1 列举 了 部 分 知名 度 较 高 的 社会 化 媒体 类 别 , 包 括 博客 ` 论 坛 .媒体 共享 
平台 .社交 网 络 .知识 协作 等 。 


表 2.1 部 分 知名 度 较 高 的 社会 化 媒体 类 别 


博客 (Blog) 新 浪 博客 、 网 易 博 客 、 百 度 空 间 
社交 网 络 (SNS) 微 博 、 人 人 网 .开心 网 .QQ 空间 、Facebook 
微 博客 (Micro-Blog) Twitter、 新 浪 微 博 、 腾 讯 微 博 、 朋 友 圈 、 
共享 平台 (Sharing) YouTube 优酷 .土豆 Flickr、Instagram、 虾 米 .百度 文库 .MBALib 
论坛 (BBS) 猫扑 、 天 涯 、 百 度 贴吧 
知识 协作 (Wiki) 维基 百科 、 百 度 百科 
即时 通信 (IM) QQ、MSN Link、 微 信 
垂直 社区 问答 类 社区 (百度 知道 , 知 乎 ) ,职业 社区 (LinkedIn) 
搜索 引擎 (Search) Google 个 性 化 搜索 .淘宝 的 搜索 
2.3.1 维基 百科 


2001 年 创办 至 今 的 维基 百科 (Wikipedia) 是 一 个 自由 内 容 、 协 同 编辑 上 且 多 语言 
的 网 络 百 科 全 书 , 通 过 Wiki 技术 使 得 所 有 人 都 可 以 简单 地 使 用 网 页 浏览 器 修改 其 
中 的 内 容 。 维 基 百 科 一 词 源 自 其 网 站 核心 技术 Wiki 以 及 具有 百科 全 书 之 意 的 
Encyclopedia ,形成 了 新 创造 出 来 的 混成 词 Wikipedia。 网 站 的 目标 及 宗旨 是 为 全 
人 类 提供 自由 的 百科 全 书 。 

网 站 由 来 自 世 界 各 地 的 志愿 者 合作 编辑 而 成 ,总 共 收 录 了 超过 2200 万 个 条 
目 ,其 中 又 以 英语 维基 百科 超过 415 万 个 条 目的 数字 排名 第 一 。 维 基 百 科 人 允许 任 
何 访问 用 户 使 用 网 页 浏览 器 自由 阅览 和 修改 绝 大 部 标签 页 面 的 内 容 。 据 统计 在 维 
基 百 科 上 大 约 有 35000000 名 登记 注册 用 户 , 其 中 有 100000 名 积极 贡献 者 长 期 参 
与 编辑 工作 ,整个 网 站 的 总 编辑 次 数 已 超越 12 亿 次 之 多 。 截 至 2013 年 1 月 为 止 
维基 百科 整个 计划 总 共有 285 种 各 自 独立 运作 的 语言 版 本 , 且 已 被 普遍 认为 是 规 
模 最 大 且 最 为 流行 的 网 络 工 具 书 ,平均 每 天 能 够 有 超过 80 万 人 次 的 浏览 记录 。 根 
据 知 名 的 Alexa Internet 网 络 流量 统计 数字 指出 ,全 世界 总 共有 近 3. 65 亿 名 民众 
使 用 维基 百科 , 且 维 基 百科 也 是 全 球 浏览 人 数 排名 第 六 高 的 网 站 (最 高 纪录 是 排名 
在 第 五 名 位 置 ) ,同时 也 是 全 世界 最 大 的 无 广告 网 站 。 

由 于 维基 百科 是 基于 互联 网 运行 的 ,因此 来 自 全 球 各 地 的 贡献 者 可 能 在 浏览 
相同 语言 版 本 的 维基 百科 时 却 使 用 不 同 的 方言 ,又 或 者 受到 不 同 国家 的 习惯 用 语 
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影响 而 使 得 彼此 用 语 出 现 些微 差异 。 这 些 差异 可 能 导致 条 目的 文字 拼写 或 者 用 法 
习惯 上 出 现 冲 突 ( 例 如 英语 用 户 就 color 和 colour 等 拼 法 或 者 是 中 文 用 户 的 繁 简 
体 转换 问题 等 ) ,或 者 是 受到 不 同 地 点 社会 环境 的 影响 下 使 得 对 于 条 目 内 容 的 观点 
不 一 。 另 外 尽管 在 各 种 语言 版 本 的 维基 百科 之 中 也 有 如 同 “ 中 立 的 观点 ? 般 普遍 施 
行 的 方针 ,然而 许多 语言 版 本 的 维基 百科 仍然 受到 主要 使 用 用 户 国 家 的 法 律 限制 ， 
这 使 得 各 个 维基 百科 计划 在 方针 和 做 法 上 并 非 一 致 。 其 中 最 为 明显 的 例子 , 则 是 
个 维基 百科 必须 依照 相关 法 律 限制 决定 是 否 能 够 根据 许可 而 采纳 自由 内 容 或 者 合 
理 使 用 的 内 容 。 

维基 百科 是 个 民主 制 、. 精 英制 .独裁 制 的 混合 。 通 常 大 部 分 的 内 容 , 由 一 般 的 
维基 人 讨论 ,修改 ,通常 为 民主 的 形式 。 维 基 百 科 的 系统 里 同时 有 资深 的 维基 人 担 
当 管 理 员 ,负责 清除 破坏 及 封锁 恶意 破坏 者 的 账户 。 非 常 敏感 的 议题 则 由 吉米 。 
威尔士 最 后 把 关 。 


2.3.2 新 浪 微 博 


新 浪 微 博 是 一 个 由 新 浪 网 推出 ,提供 微 博客 服务 的 网 站 。 用 户 可 以 通过 网 
WAP 页 面 、 外 部 程序 和 手机 短信 、 彩 信 等 发 布 140 汉字 (280 字符 ) 以 内 的 信息 
可 上 传 图 片 和 链接 视频 ,实现 即时 分 享 。 

新 浪 微 博 提 供 的 功能 主要 包括 : 

(1) 发 布 功能 ”用 户 可 以 像 博 客 、 聊 天 工具 一 样 发 布 内 容 ; 

(2) 转发 功能 ”用 户 可 以 把 自己 喜欢 的 内 容 一 键 转发 到 自己 的 微 博 上 ,转发 
时 还 可 以 加 上 自己 的 评论 ; 

(3) 关注 功能 ”用 户 可 以 对 自己 喜欢 的 用 户 进 行 关 注 ,成 为 这 个 用 户 的 关 
注 者 ; 

(4) 评论 功能 ”用户 可 以 对 任何 微 博 进行 评论 ; 

(5) 话题 功能 ”用 户 可 以 在 两 个 # 号 之 间 插 入 某 一 话题 , 则 发 出 的 微 博 可 很 
方便 地 通过 话题 被 搜索 到 ; 

(6) 私信 功能 ”用 户 可 以 点 击 私信 ,给 新 浪 微 博 上 任意 的 一 个 开放 了 私信 端 
口 的 用 户 发 送 私信 ,这 条 私信 将 只 被 对 方 看 到 ,实现 私密 的 交流 。 

新 浪 微 博 采用 的 推广 策略 是 邀请 明星 和 名 人 加 入 ,开设 账号 ,并 对 他 们 进行 实 
名 认证 ,认证 后 的 用 户 在 用 户 名 后 会 加 上 一 个 橙色 字母 V, 以 示 与 普通 用 户 、 微 博 
达 人 的 区 别 , 同 时 也 可 避免 冒充 名 人 微 博 的 行为 。 

目前 新 浪 微 博 上 大 量 的 媒体 工作 者 、 政 府 部 门 、 企 业 公司 和 民间 组 织 , 将 其 作 
为 一 个 发 布 和 交流 信息 的 平台 ,同时 它 也 成 为 社会 话题 发 生 和 讨论 的 重要 平台 。 
可 以 说 ,现在 微 博 逐 渐 开始 成 为 一 种 实时 民意 调查 系统 ,成 为 一 个 与 论 监督 利器 。 


页 
,并 
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2.4 社会 化 媒体 大 数据 


目前 ,社会 化 媒体 每 时 每 刻 都 在 产生 巨大 的 数据 。 例 如 ,Facebook 注册 用 户 
超过 10 亿 , 每 月 上 传 的 照片 超过 10 亿 张 ,每 天 生成 500TB 以 上 的 数据 。 一 般 认 
为 ,从 规模 上 超过 1PB 就 到 了 大 数据 的 范畴 (1024GB== 1TB,1024TB= 1PB， 
1024PB 二 1EB,1024EB= 二 1ZB)。 大 数据 的 特点 是 : (1) 海 量 性 , 即 数据 的 量 要 大 ; 
(2) 多 样 性 ,显然 社会 化 媒体 具备 多 样 性 (网 络 日 志 、 图 像 . 音 像 文字、 数值 .XML、 
HTML、 各 类 报表 ); (3) 高 速 性 ; (4) 大 数据 的 价值 密度 低 , 这 也 导致 大 数据 挖掘 
需要 新 的 .更 快速 的 方法 。 在 数据 分 析 上 ,如果 在 上 千 台 机 器 上 设计 挖掘 算法 ,就 
非常 的 不 方便 。 如 何 把 数据 的 潜在 价值 发 挥 出 来 ,是 一 个 挑战 。 显 然 ,社会 化 媒体 
数据 是 大 数据 。 


2.5 社会 化 媒体 大 数据 获取 方法 


2.5.1 维基 百科 数据 获取 方法 


维基 百科 是 一 个 动态 的 、 允 许 任何 人 自由 访问 和 编辑 其 中 的 文本 及 条 目的 网 
络 百科 全 书 。 按 照 对 社会 化 媒体 的 分 类 ,维基 百科 属于 群体 协作 类 社会 化 媒体 ,其 
主旨 就 是 允许 多 人 通过 群体 协作 进行 知识 共享 。 

维基 百科 按照 一 定 的 规则 对 词 条 信息 进行 分 类 ,“ 人 物 ” 类 是 其 中 一 大 类 。 维 
基 百 科 人 物 类 收录 了 包括 重要 的 历史 人 物 和 对 时 事 有 关键 影响 的 人 的 条 目 。 对 于 
人 物 的 收录 ,维基 百科 有 一 定 的 收录 标准 ,同时 ,群体 协作 的 编辑 方式 使 收录 的 信 
息 具 有 和 较 高 的 可 信和 度 。 基 于 这 样 的 可 靠 性 ,可 以 以 维基 百科 中 的 人 物 类 为 例 ,通过 
社会 计算 的 方法 对 人 物 类 中 的 关系 网 络 进行 挖掘。 通过 对 关系 数据 的 挖掘 ,可 以 
进一步 探索 在 非 强 关系 的 制约 下 ,重要 的 社会 人 物 之 间 的 关系 信息 。 

截至 2012 年 11 月 2 日 ,中文 维 基 百 科 的 条 目 数 已 经 突破 60 万 ,全 球 所 有 282 
种 语言 的 独立 运作 版 本 共 突 破 2100 万 个 条 目 。 维 基 百 科 提 供 完 整 的 数据 库 转 储 
文件 给 感 兴趣 的 使 用 者 ,数据 库 转 储 文件 中 的 信息 以 不 同 的 文件 格式 进行 储存 , 同 
时 保证 定时 的 更 新 。 可 以 通过 维基 百科 官方 网 站 获取 最 新 的 数据 库 转 储 文件 。 
2013 年 12 月 8 日 更 新 的 中 文 版 维基 百科 数据 库 转 储 文件 解压 后 的 XML 文件 大 
小 为 684. 8M, 本 书 将 以 此 版 本 为 例 ,对 维基 百科 中 数据 获取 的 方法 进行 说 明 。 

中 文 版 维基 百科 数据 库 转 储 文件 包 含 了 当前 版 本 的 条 目 、 模 板 、 图 片 描述 、 基 
本 的 元 页 面 。 在 提取 并 存储 人 物 类 的 页 面 信息 前 ,需要 提供 一 个 页 面 名 称 列表 。 
由 于 每 个 人 物 在 维基 百科 中 对 应 一 个 唯一 的 页 面 ,因此 可 以 将 人 物 名 称 作 为 页 面 
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名 称 列表 来 存储 页 面 。 这 种 存储 方式 保证 了 人 物 名 与 维基 百科 中 的 词 条 对 应 ,使 
之 不 会 出 现 歧义 或 找 不 到 对 应 页 面 的 情况 。 
维基 百科 人 物 类 数据 获取 示意 图 如 图 2. 1 所 示 。 


解析 XML 文 件 


将 人 物 名 称 存 人 Hash 表 


L 模板 解析 =| 内 容 解析 


六 


将 信息 存 入 数据 库 


程序 结束 
图 2.1 维基 百科 人 物 类 数据 获取 示意 图 


在 获取 人 物 信息 时 ,根据 给 定 的 人 物 名 称 列 表 , 依 次 从 XML 格式 数据 包 中 找 
到 对 应 的 人 物 信息 ,并 通过 SAX 解析 出 对 应 的 人 物 信 息 。 解 析 XML 文档 时 ,以 
人 物 名 称 为 主键 建立 一 个 Hash 表 。 由 于 维基 百科 通过 重 定向 的 方式 避免 了 人 物 
的 重 名 ,因此 不 必 考 虑 人 物 名 称 重复 的 问题 。 通 过 模板 解析 器 和 正则 表达 式 的 方 
式 从 Infobox 和 正文 内 容 中 提取 出 人 物 页 面 Infobox 信息 ,正文 信息 和 锚 文 本 信 
息 ,并 把 此 信息 作为 人 物 实 体 信 息 存 人 对 应 的 人 物 信息 队列 中 。 


2.5.2 新 浪 微 博 数据 获取 方法 


新 浪 微 博 平台 是 一 个 开放 的 信息 订阅 、 分 享 与 交流 平台 。 每 条 微 博 的 字数 最 
多 不 能 超过 140 字 , 内 容 从 兴趣 爱好 、 饮 食 娱 乐 到 政治 时 事 均 不 受 限制 。 不 同 于 传 
统 的 社交 媒体 一 对 多 的 信息 传播 模式 , 微 博 平台 的 信息 传播 具有 迅捷 性 和 裂变 性 。 
鉴于 微 博 的 产生 与 传播 特点 , 微 博 开 放 平台 中 包含 海量 的 数据 信息 ,如 博 主 信息 、 
微 博信 息 ,粉丝 关系 等 。 这 些 信息 与 关系 有 助 于 深入 探索 社会 化 媒体 信息 传播 的 
机 制 与 特点 ,非常 具有 研究 意义 。 

新 浪 微 博 平台 对 使 用 者 是 开放 的 ,每 个 使 用 者 都 可 以 使 用 新 浪 微 博 开 放 平台 
向 外 开发 的 一 组 API 来 获取 指定 格式 的 数据 。API 是 获取 数据 的 接口 ,新 浪 微 博 
API 可 供 使 用 的 接口 有 用 户 接 口 . 微 博 接口 .话题 接口 好友 分 组 接口 .地理 位 置 接 
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口 及 公共 服务 接口 等 。 选 取 可 以 用 来 提供 社会 计算 所 需 信息 的 接口 ,将 它们 分 为 
以 下 三 类 。 

(1) 基本 信息 资料 接口 ,包括 用 户 接口 .用户 标签 接口 等 。 

(2) 微 博 行为 信息 接口 ,包括 微 博 接口 .评论 接口 等 。 

(3) 用 户 关系 信息 接口 ,包括 关系 接口 ,好友 分 组 接口 等 。 

微 博 数据 获取 的 流程 图 如 图 2. 2 所 示 。 


程序 开始 
J 
微 博 平台 
1 
认证 授权 
f 


API 调 用 


[La 解析 博 主 XML 文件 


将 博 主 ID 存 入 Hash 表 


一 | 解析 微 博 XML 文 件 =| 将 信息 存 入 数据 库 


图 2.2 微 博 数据 获取 的 流程 图 


微 博 数据 获取 的 基本 方式 是 通过 API 接口 返回 数据 ,默认 以 XML 或 JSON 
的 格式 返回 博 主 信息 。 微 博 平台 规定 , 当 程 序 调 用 以 上 三 类 API 接口 时 , 需 向 服 
务 器 进行 开放 授权 认证 。 

开放 授权 (OAuth) 是 一 个 开放 标准 ,人 允许 用 户 让 第 三 方 应 用 访问 该 用 户 在 某 
一 网 站 上 存储 的 私密 资源 (如 照片 .视频 .联系 人 列表 ) ,而 无 须 将 用 户 名 和 密码 提 
供给 第 三 方 应 用 。 因 此 ,OAuth 为 新 浪 微 博 API 提供 了 一 个 安全 、 高 效 的 认证 机 
制 , 其 具体 过 程 如 下 。 

(1) 用 户 向 新 浪 微 博 开放 平台 提出 开发 者 服务 申请 ,提交 实名 身份 认证 。 

(2) 向 新 浪 微 博 开放 平台 OAuth 服务 商 提 交 创 建 应 用 请 求 , 获 得 应 用 资料 ， 
并 将 其 中 的 应 用 编号 App Key 和 应 用 口令 App Secret 写 入 认证 程序 配置 文件 。 
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(3) 利用 新 浪 微 博 SDK 提供 的 认证 程序 ,向 新 浪 微 博 服务 器 提交 API 使 用 申 
请 ,填写 申请 者 微 博 账号 ,口令 ,获取 第 三 方 软件 应 用 许可 。 

(4) 申请 成 功 后 服务 器 在 浏览 器 返回 URL 地 址 中 提供 一 个 由 32 位 十 六 进 制 
数组 成 的 认证 码 Access_code, 用 户 将 此 认证 码 提 交 给 认证 服务 器 ,服务 器 同意 用 
户 请 求 ,向 其 颁发 通过 新 浪 微 博 授权 的 API 调用 令 牌 Access_Token 与 对 应 的 

(5) 用 户 利用 此 令 牌 作为 参量 调用 相应 的 API 接口 。 

通过 上 述 OAuth 认证 登录 新 浪 微 博 开 放 平 台 成 功 后 ,用 户 便 可 调用 开放 平台 
的 各 种 接口 , 令 牌 使 用 期 限 为 24 小 时 , 即 超过 试用 期 后 需 重 新 进行 认证 才能 继续 
调用 API 接口 。 

授权 认证 完毕 后 , 即 服务 器 同意 用 户 的 接口 调用 请 求 ,从 API 链接 中 打开 一 
个 输入 流 , 从 输入 流 中 读 取 数据 。 其 中 ,两 个 参数 为 博 主 ID 和 抓 取 的 该 博 主 的 微 
博 数 ,通过 对 两 个 参数 的 赋值 ,可 以 得 到 返回 的 XML 格式 的 页 面 信息 。 

通过 SAX 将 XML 文件 解析 时 ,以 每 个 博 主 ID 为 主键 放 入 Hash 表 中 ,如 果 
Hash 表 中 存在 该 ID 号 , 则 停止 解析 。 反 之 ,继续 解析 每 一 条 微 博 , 包 括 博 主 账号 、 
博 主 昵称 、 微 博 正文 转发 数 和 评论 数 。 解 析 完 成 后 ,将 数据 分 别 存 放 在 数据 库 中 ， 
进一步 判断 是 否 继续 调用 API。 若 继续 调用 , 则 循环 解析 程序 ,否则 程序 结束 。 


2.6 现 有 社会 网 络 分 析 软 件 


社会 网 络 分 析 的 价值 逐步 显现 出 来 . 越 来 越 多 的 人 将 注意 力 投 入 进来 ,社会 网 
络 分 析 软 件 随 着 人 们 的 需求 开始 涌现 。 其 中 被 广 为 使 用 的 包括 UCINET、 NetDraw、 
Pajek、NetMiner、StOCNET、Mage 等 。 


2.6.1 UCINET 软件 


UCINET 基本 上 是 最 知名 和 最 经 常 被 使 用 的 处 理 社会 网 络 数据 和 其 他 相似 
数据 的 综合 性 分 析 程 序 。 软 件 最 初 由 美国 加 州 大 学 欧文 分 校 的 一 群 网 络 分 析 者 编 
写 , 现 由 斯 带 芬 . 波 加 提 (Stephen Borgatti) ,马丁 ， 埃 弗 里 特 (Martin Everett) 和 
林 顿 。 弗 里 曼 (Linton Freeman) 组 成 的 团队 进行 扩展 和 维护 。UCINET 能 够 处 理 
的 原始 数据 为 矩阵 格式 , 它 提 供 了 大 量 数据 管理 和 转化 工具 ,但 程序 本 身 不 包含 网 
络 可 视 化 的 图 形 程序 ,而 是 提供 接口 将 数据 和 处 理 结果 输出 至 NetDraw、Pajek、 
Mage 和 KrackPlot 等 软件 进行 作 图 。 

UCINET 提供 大 量 的 网 络 分析 指 标的 测量 分 析 功 能 ,包括 凝聚 子 群 分 析 、 派 
系 分 析 、 中 心性 分 析 、 个 人 角色 分 析 和 基于 置换 的 统计 分 析 等 。 另 外 ,软件 还 包含 
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为 数 众多 的 基于 过 程 的 分 析 程 序 , 如 聚 类 分 析 、 多 维 标 度 .二 模 标 度 (奇异 值 分 解 、 
因子 分 析 和 对 应 分 析 ) 、 角 色 和 地 位 分 析 ( 结 构 、 角 色 和 正则 对 等 性 )、 拟 合 中 心 - 边 
缘 模 型 。 此 外 ,UCINET 提供 从 简单 统计 到 拟 合 P1 模型 在 内 的 多 种 统计 程序 。 

UCINET 可 以 处 理 32767 个 网 络 结 点 ,但 从 实际 操作 来 看 , 当 结 点 数 在 5000 一 
10000 之 间 时 ,一 些 程序 的 运行 就 会 很 慢 。 


2.6.2 NetDraw 软件 


NetDraw 是 由 Steve Borgatti 开发 的 开源 工具 软件 , 它 通常 用 来 对 一 模式 和 二 
模式 网 络 进行 可 视 化 操作 。NetDraw 可 单独 使 用 ,也 能 被 集成 到 UCINET 中 。 它 
兼容 多 种 文件 格式 ,如 UCINET 的 系统 文件 .DL 文本 文件 和 Pajek 的 文本 文件 
等 ; 可 以 把 网 络 的 图 形 输出 为 EMF 、`WMF .BMP 或 JPG 文件 ,也 可 以 把 数据 输出 
到 Pajek 和 Mage 软件 中 。 


2.6.3 Pajek 软件 


Pajek 是 一 个 特别 为 处 理 大 数据 集 而 设计 的 网 络 分 析 和 可 视 化 程序 。Pajek 
可 以 分 析 多 于 一 百 万 个 结 点 的 超大 型 网 络 , 并 支持 将 大 型 网 络 分 解 成 几 个 较 小 的 
网 络 , 以 便 使 用 更 有 效 的 方法 进一步 处 理 。 软 件 提供 包括 探测 结构 平衡 和 聚集 性 ， 
分 层 分 解 和 团 块 模型 (结构 、 正 则 对 等 性 ) 在 内 的 基于 过 程 的 分 析 方 法 ,但 只 包含 少 
数 基本 的 统计 程序 。Pajek 支持 多 种 数据 输入 方式 ,包括 NET、CLU 和 VEC。 网 
络 文件 (NET) 中 包含 结 点 列表 和 弧 / 边 (arcs/edges) 列 表 , 只 需 指定 存在 的 联系 即 
可 ,从 而 高 效率 地 输入 大 型 网 络 数 据 。 软 件 使 用 的 数据 文件 中 可 以 包含 指示 行动 
者 在 某 一 观察 时 刻 的 网 络 位 置 的 时 间 标 志 , 因 而 可 以 生成 一 系列 交叉 网 络 ,并 对 这 
些 网 络 进行 非 统计 性 分 析 以 及 考查 网 络 的 演化 。 除 了 普通 网 络 ( 有 向 、 无 向 、 混 合 
网 络 ) 外 ,Pajek 还 支持 多 关系 网 络 、 二 模式 网 络 ( 网 络 由 两 类 异 质 结 点 构成 ), 以 及 
暂时 性 网 络 ( 网 络 随时 间 演 化 ) 。 


2.6.4 NetMiner 软件 


NetMiner 是 一 个 把 社会 网 络 分 析 和 可 视 化 探索 技术 结合 在 一 起 的 软件 工具 。 
使 用 者 可 以 用 可 视 化 和 交互 的 方式 探查 网 络 数 据 , 最 终 找 出 网 络 的 结构 和 潜在 模 
式 。NetMiner 采用 的 网 络 数据 类 型 包括 三 种 类 型 的 变量 : 邻接 矩阵 、 联 系 变量 和 
行动 者 属性 数据 。NetMiner 具有 与 Pajek 和 NetDraw 相似 的 高 级 图 形 特性 ,几乎 
所 有 的 结果 都 是 以 文本 和 图 形 两 种 方式 提交 的 。NetMiner 提供 的 网 络 描述 方法 
和 基于 过 程 的 分 析 方 法 也 较为 丰富 ,同时 也 支持 包括 描述 性 统计 、ANOVA ,相关 
和 回归 在 内 的 一 些 标准 统计 过 程 。 
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2.6.5 StOCNET 软件 


StOCNET 是 个 适用 于 社会 网 络 高 级 统计 分 析 的 开放 软件 系统 , 它 提 供 了 一 
个 应 用 多 种 统计 方法 的 平台 ,每 种 统计 方法 以 单独 模块 的 形式 租 入 其 中 。StOCNET 
包含 六 个 统计 模块 : 

(1) BLOCKS, 随 机 块 模型 。 

(2) ULTRAS, 使 用 超度 量 估计 潜在 的 传递 性 结构 。 

(3) P2, 拟 合 指 数 随机 图 P2 模型 。 

(4) SIENA ,纵向 网 络 数据 的 分 析 。 

(5) ZO ,确定 随机 图 统计 量 的 分 布 概率 。 

(6) PACNET ,构造 和 拟 合 基于 偏 代数 结构 的 结构 模型 。 


2.7 本 章 小 结 


社会 化 媒体 不 仅 给 广大 的 用 户 提 供 了 分 享 和 交流 的 新 型 媒体 平台 ,而 且 也 为 
社会 计算 的 研究 者 们 提供 了 丰富 的 媒体 大 数据 工厂 。 如 何 快速 成 为 新 型 媒体 的 主 
力 军 ,分 析 社 会 媒体 的 多 样 性 呈现 方式 以 及 平台 所 传递 的 信息 对 社会 媒体 的 发 展 
和 研究 都 至 关 重 要 。 首 先 , 本 章 从 社会 媒体 的 定义 入 手 , 曾 述 了 社会 媒体 所 表现 出 
的 独特 特征 ,揭示 了 社会 媒体 在 互联 网 中 的 重要 性 。 其 次 ,对 多 态 呈 现 的 社会 媒体 
进行 了 分 类 ,分 析 了 每 种 分 类 的 呈现 特点 和 优势 ,并 列举 了 有 代表 性 的 社会 媒体 网 
站 。 第 三 ,本 章 从 社会 媒体 研究 者 的 角度 出 发 ,详细 介绍 了 两 种 典型 的 媒体 大 数据 
的 获取 方法 。 最 后 ,本章 还 介绍 了 目前 现 有 的 社会 网 络 分 析 软 件 ,分 别 从 各 自 的 适 
用 范围 .功能 和 特点 等 方面 呈现 了 对 社会 计算 的 研究 辅助 作用 。 


1. 什么 是 社会 化 媒体 ? 它 包 括 哪 些 特征 ?根据 你 的 体验 , 谈 谈 你 对 社会 媒体 
的 认识 。 

2. 根据 社会 化 媒体 的 呈现 方式 , 试 描述 社会 化 媒体 都 有 哪些 类 别 ? 从 这 些 类 
别 中 , 试 选 出 两 个 以 上 你 使 用 的 社会 化 媒体 , 谈 谈 你 使 用 的 感受 。 

3. 查阅 相关 资料 , 浅 析 主 流 的 社会 化 媒体 的 发 展现 状 以 及 所 面临 的 问题 。 

4. 根据 社会 化 媒体 的 数据 获取 方法 , 试 着 设计 一 个 网 络 媒体 数据 的 候 取 程 
序 , 并 分 析 所 有 怜 取 数据 的 社会 化 特征 。 

5. 利用 一 些 经 典 的 社会 网 络 的 数据 集 , 试 选择 1 一 2 个 社会 网 络 分 析 软 件 ,对 
数据 集 进行 网 络 分 析 。 
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本 章 学 习 目标 

。 理解 社区 发 现 的 目的 和 概念 

。 掌握 经 典 的 非 重 登 社区 发 现 算法 

。 理解 重 登 社区 发 现 的 意义 和 算法 思想 


3.1 非 重 全 社区 发 现 


社区 发 现 具有 重要 的 理论 意义 和 应 用 价值 , 它 吸 引 了 包括 计算 机 、 生 物 、 社 会 
学 \ 物 理学、 数学 等 诸多 不 同 领域 的 研究 者 进行 研究 。 从 2002 年 开始 ,研究 者 针对 
不 同 的 问题 和 领域 提出 不 同 的 解决 思路 ,研究 成 果 已 在 不 同 领域 的 权威 国际 期 刊 
和 重要 学 术 会 议论 文集 上 发 表 。 


3.1.1 传统 算法 


1. 图 分 割 法 

将 网 络 看 作 一 个 图 ,社区 看 作 是 密集 的 子 图 结构 ,就 可 以 使 用 计算 机 领域 经 典 
的 图 分 割 法 来 解决 社区 发 现 问 题 。 

图 分 割 法 的 目标 是 把 图 中 的 结 点 分 为 n 个 预定 大 小 的 群 组 ,并 使 这 些 群 组 之 
间 的 边 数 最 小 。 通 常 利用 迭代 对 网 络 进 行 划 分 : 先 将 网 络 最 优 划 分 为 两 个 子 网 
络 , 再 重复 对 子 网 络 进行 最 优 二 分 ,直到 最 终 得 到 个 子 网 络 ( 即 n 个 社区 )。 

使 用 较 多 的 两 个 算法 是 Kernighan-Lin 算法 和 谱 平 分 法 。 两 种 算法 的 主要 局 
限 在 于 不 能 保证 迭代 二 分 就 能 得 到 正确 的 划分 ,而 且 缺 乏 有 效 的 二 分 停止 条 件 。 
另外 ,Kernighan-Lin 算法 还 需要 预先 知道 两 个 子 网 络 的 大 小 。 
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2. 层次 聚 类 

通常 有 许多 网 络 是 具有 层次 结构 的 , 几 个 小 社区 被 包含 在 较 大 的 社区 里 ,这 些 
社区 又 被 包含 在 更 大 的 社区 中 。 在 这 样 具有 层次 结构 的 社区 中 ,使 用 层次 聚 类 的 
方法 获取 社区 结构 可 获得 较 好 结果 。 

所 有 的 层次 聚 类 方法 都 要 首先 定义 一 个 计算 结 点 相似 度 的 方法 ,然后 根据 此 
方法 计算 任意 两 结 点 间 的 相似 度 ,形成 一 个 相似 度 和 矩阵 。 而 后 根据 计算 方向 的 不 
同 , 层 次 聚 类 可 具体 分 成 凝聚 法 和 分 裂 法 。 

凝聚 法 : 将 每 个 结 点 视 为 一 个 初始 社区 ,根据 相似 度 从 强 到 弱 逐 步 重新 连接 
各 结 点 ,形成 树 状 图 (Dendrogram) ,如 图 3. 1 所 示 ,根据 需求 对 树 状 图 进行 横 切 ， 
获得 社区 结构 。 主 要 步骤 如 下 。 

(1) 移 除 网 络 中 的 所 有 边 ,得 到 有 个 孤立 结 点 的 初始 状态 。 


上 WL 


图 3.1 层次 聚 类 


(2) 计算 网 络 中 每 对 结 点 的 相似 度 (不 考虑 两 结 点 是 否 相 连 )。 

(3) 根据 相似 度 从 强 到 弱 连接 相应 结 点 对 ,形成 树 状 图 。 

(4) 根据 实际 需求 横 切 树 状 图 ,获得 社区 结构 。 

分 裂 法 : 找 出 相互 关联 最 弱 的 结 点 ,删除 它们 之 间 的 边 ,通过 这 样 的 反复 操作 
将 网 络 划分 为 越 来 越 小 的 组 件 ,最 终 依 然 连 通 的 网 络 构成 社区 。 

层次 聚 类 法 的 优点 在 于 不 需要 指定 网 络 的 社区 个 数 或 社区 规模 。 但 该 方法 
并 不 能 确定 网 络 的 最 优 划 分 ,而 且 非 常 依赖 于 结 点 相似 度 的 衡量 标准 。 其 聚 类 
结果 有 可 能 会 将 某 些 重 要 结 点 划分 为 单独 的 社区 ,从 而 不 能 正确 划分 网 络 的 外 
围 结 点 。 

3. 其 他 到 类 

通过 给 每 个 网 络 结 点 分 配 一 个 合理 的 KK 维 坐 标 ,可 以 把 社区 发 现 问 题 转换 为 
传统 的 空间 点 聚 类 问题 ,然后 就 可 以 采用 K-means 等 经 典 聚 类 算法 将 这 些 新 生成 
的 空间 点 聚 类 。 早 在 1970 年 ,Hall 针对 图 分 割 问题 提出 了 加 权 二 次 型 变换 算法 。 
该 算法 能 够 将 网 络 投影 到 一 维 空间 ,使 得 网 络 中 连接 紧密 的 结 点 在 一 维 空间 中 的 
位 置 相对 较 近 ,而 连接 稀 玻 的 结 点 在 一 维 空间 中 的 位 置 相 对 较 远 。 类 似 地 ， 
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Donetti 和 Munoz 在 2004 年 提出 了 一 种 结合 谱 方法 和 空间 点 聚 类 方法 的 复杂 网 
络 聚 类 算法 。 算 法 通过 计算 拉 普 拉 斯 矩阵 的 K 个 最 小 特征 向 量 将 网 络 映射 到 开 
维 空间 中 ,然后 采用 某 种 基于 距离 的 空间 点 聚 类 算法 聚 类 网 络 结 点 。 


3.1.2 分 裂 算法 


分 裂 算法 通过 识别 并 切断 连接 不 同 社区 结 点 的 边 来 发 现 社区 结构 ,算法 的 关 
键 在 于 找到 连接 不 同 社 区 的 边 的 属性 特征 以 便 在 图 中 识别 它们 。 实 际 上 ,分 裂 算 
法 与 层次 聚 类 的 方法 比较 类 似 , 均 是 以 切断 一 定 条 件 的 边 的 方式 进行 ,区 别 在 于 ， 
分 裂 算法 移 除 的 是 社区 之 间 的 关联 边 ,而 这 些 边 上 两 点 的 相似 度 不 一 定 很 低 。 其 
中 最 著名 的 算法 就 是 Girvan-Newman 算法 ,根据 以 下 假设 : 社区 之 间 所 存在 的 少 
数 几 个 连接 应 该 是 社区 间 通 信 的 瓶颈 ,是 社区 间 通 信 时 通信 流量 的 必 经 之 路 。 如 
果 考 虑 网 络 中 某 种 形式 的 通信 并 且 寻 找到 具有 最 高 通信 流量 (例如 最 小 路 径 条 数 ) 
的 边 ,该 边 就 应 该 是 连接 不 同 社区 的 通道 。Girvan-Newman 算法 这 样 迭代 删除 边 
介 数 (Edge Betweenness) 最 大 的 边 。 

除 此 之 外 ,Tyler 等 人 在 2003 年 将 统计 方法 引入 基本 的 GN 算法 ,提出 一 种 近 
似 GN 的 算法 。 算 法 采用 蒙特 卡 洛 方法 估算 出 部 分 连接 的 近似 边 介 数 用 以 取代 精 
确 边 介 数 ,牺牲 聚 类 精度 来 提高 计算 速度 。2004 年 ,Radicchi 等 人 提出 以 连接 聚 类 
系数 取代 GN 算法 的 边 介 数 。 算 法 基于 社区 间 连 接应 该 很 少 出 现在 短 回路 (如 三 
角形 或 四 边 形 ) 中 的 假设 ,把 连接 聚 类 系数 定义 为 包含 该 连接 的 短 回路 数目 。 而 社 
区 间 连 接 的 连接 聚 类 系数 应 小 于 社区 内 连接 的 连接 聚 类 系数 ,因此 算法 在 迭代 过 
程 中 不 断 删 除 具 有 最 小 连接 聚 类 系数 的 边 。 该 算法 的 最 大 局 限 性 是 : 不 适合 处 理 
短 回路 很 少 甚至 没有 的 复杂 网 络 。 


3.1.3 基于 模块 度 的 方法 


为 了 衡量 社区 发 现 的 结果 ,Newman 和 Girvan 在 2004 年 提出 模块 度 评价 函 
数 (Q 函数 )。Q 函数 的 定义 为 社区 内 实际 连接 数目 与 随机 连接 情况 下 社区 内 期 望 
连接 数目 之 差 。Q 的 计算 公式 如 式 (3-1) 所 示 。 

a= 于 一 ( 攻 ] ] (3-1) 

其 中 K 表示 社区 个 数 ,m 表示 网 络 连接 总 数 ,m, 表 示 社 区 内 连接 总 数 ,d, 表 示 社 区 
s 中 结 点 度 之 和 。Q 位 于 0 到 1 之 间 , 取 值 越 大 代表 结果 越 好 。 

Newman 同年 提出 了 第 一 个 基于 模块 度 优化 的 算法 ,算法 初始 化 时 将 每 个 结 
点 看 作 是 一 个 社区 ,在 不 断 的 迭代 中 选择 使 AQ 最 大 化 (不 一 定 为 正 ) 的 目标 合并 
两 个 社区 ,直到 网 络 中 只 剩 一 个 社区 。 最 终 在 形成 的 层次 聚 类 树 中 选取 令 Q 最 大 
的 社区 划分 作为 结果 。 
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Guimera 和 Amaral 在 2005 年 提出 了 基于 模拟 退火 的 模块 度 优化 算法 
(Genetic Algorithm,GA) ,并 应 用 到 新 陈 代谢 网 络 分 析 中 。GA 算法 通过 将 结 点 
移动 到 其 他 社区 .交换 不 同 社区 内 的 结 点 、 分 解 或 合并 社区 三 种 策略 产生 新 的 候选 
解 ,利用 候选 解 的 Q 值 来 进行 评价 ,并 采用 模拟 退火 策略 的 Metropolis 准则 决定 
是 否 接受 该 候选 解 。 算 法 的 准确 度 极 高 ,但 效率 较 低 ,不 适用 于 大 型 网 络 。 

针对 模块 度 优化 的 算法 非常 多 ,许多 传统 的 优化 算法 都 可 以 被 用 来 对 Q 值 进 
行 优化 ,相关 的 研究 成 果 也 很 多 。 但 值得 注意 的 是 ,对 于 大 规模 的 复杂 网 络 ,基于 
优化 Q 函数 的 复杂 网 络 聚 类 算法 倾向 于 找到 粗糙 而 不 是 精细 的 社区 结构 ,意味 着 
这 些 未 必 能 够 找到 网 络 中 真实 存在 的 全 部 社区 结构 。 


3.1.4 动力 学 算法 


分 析 网 络 的 动力 学 过 程 ,可 以 发 现 网 络 的 结构 属性 ,进行 社区 发 现 。 基 于 动力 
学 的 社区 发 现 算法 主要 是 随机 游 走 方法 和 同步 方法 。 
随机 游 走 方法 是 基于 以 下 思想 : 如 果 存 在 很 强 的 社区 结构 ,那么 随机 游 走 器 
(Random Walker) 会 在 社区 内 部 停留 更 长 的 时 间 , 因 为 社区 内 部 的 边 密度 比较 高 。 
例如 ,有 的 学 者 提出 了 基于 马尔 可 夫 随 机 游 走 模型 的 启发 式 符号 网 络 聚 类 算 
法 (Finding and Extracting Communites,FEC)。FEC 算法 所 采用 的 基本 假设 是 ， 
从 任意 给 定 的 社区 出 发 ,网 络 中 的 随机 游 走 过 程 达到 起 始 社区 内 结 点 的 期 望 概率 
将 大 于 达到 起 始 社区 外 结 点 的 期 望 概率 。 基 于 该 启发 规则 ,FEC 算法 首先 计算 出 
在 给 定时 刻 随机 游 走 过 程 到 达 所 有 结 点 的 期 望 转移 概率 分 布 , 进 而 根据 该 分 布 的 
局 部 一 致 性 一 一 同 社区 结 点 具有 近似 相同 的 期 望 转移 概率 分 布 一 一 识别 出 各 个 不 
同 的 网 络 徐 。 与 现 有 方法 相 比 ,FEC 算法 在 时 间 和 识别 精度 方面 表现 出 了 更 好 的 
性 能 ,尤其 适合 处 理 噪声 高 和 社区 结构 不 明显 的 复杂 网 络 。 该 算法 的 参数 是 随机 
游 走 的 步 长 , 步 长 的 设置 会 影响 最 终 的 聚 类 结果 。 通 过 实验 分 析 ,FEC 算法 给 出 
了 步 长 设置 的 经 验 值 ,建议 取 值 区 间 为 。 其 中 6 表示 复杂 网 络 中 两 点 间 的 平均 距 
离 ( 大 多 数 网 络 都 满足 六 度 分 离 理 论 ),20 表示 网 络 的 直径 (WWW 是 迄今 最 大 的 
复杂 网 络 ,研究 表明 其 直径 为 19)。 但 是 FEC 算法 没有 从 理论 上 给 出 一 种 针对 不 
同 网 络 设置 最 优 参 数 的 方法 。 


3.1.5 局 部 社区 发 现 算法 


在 许多 超大 型 且 动 态 变化 的 网 络 结构 中 ,全 局 的 社区 发 现 算法 往往 是 不 可 行 
的 ,针对 这 个 问题 ,研究 人 员 提 出 一 些 寻 找 网 络 中 局 部 社区 结构 的 算法 。 比 较 有 代 
表 性 的 包括 Hub 算法 和 BB 算法 。 

Hub 算法 是 Costa 等 在 2004 年 提出 的 ,其 中 心思 想 为 : 在 许多 实际 网 络 中 ， 
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社区 是 以 一 些 具 有 最 大 度 的 Hub 结 点 为 核心 产生 的 ,这 些 核 心 结 点 会 不 断 地 吸引 
周围 的 结 点 ,因此 会 以 它们 为 中 心 形成 各 个 社区 。Hub 算法 最 大 的 局 限 在 于 必须 
知道 社区 的 数目 , 且 要 求 这 些 社区 的 直径 是 相等 的 ,否则 就 很 容易 出 错 。 

BB 算法 继承 了 Hub 算法 的 部 分 思想 ,从 已 知 结 点 出 发 ,通过 扩展 传播 寻找 结 
点 所 在 的 社区 结构 ,并 通过 对 定义 的 暴露 度 的 增长 限制 来 控制 扩散 ,最 终 得 到 结 点 
所 在 社区 结构 。 


3.1.6 几 种 经 典 社区 算法 


1. Kernighan-Lin 算法 

Kernighan-Lin 算法 为 网 络 的 划分 引入 一 个 增益 函数 ,并 利用 贪 禁 搜 索 得 到 增 
益 函 数 最 大 的 网 络 划 分 。 增 益 函 数 的 定义 为 两 个 子 网 络 内 部 边 的 数量 减 去 子 网 络 
间 边 的 数量 ,将 待 分 割 的 网 络 随机 划分 成 指定 大 小 的 两 个 子 网 络 ,不 断 地 交换 两 个 
子 网 络 的 结 点 来 对 增益 函数 进行 优化 。 

首先 ,将 网 络 中 的 结 点 随机 地 划分 为 已 知 大 小 的 两 个 子 网 络 。 在 此 基础 上 , 考 
虑 所 有 可 能 的 结 点 对 ,其 中 每 个 结 点 对 的 结 点 分 别 来 自 两 个 子 网 络 。 对 每 个 结 点 
对 ,计算 如 果 交 换 这 两 个 结 点 可 能 得 到 的 Q 的 增益 AQ 二 Qx 后 一 Q 交 热 前 ,然后 交 
换 最 大 的 AQ 对 应 的 结 点 对 ,同时 记录 交换 以 后 的 Q 值 。 规 定 每 个 结 点 只 能 交换 
一 次 。 重 复 这 个 交换 过 程 ,直到 某 个 社团 内 所 有 的 结 点 都 被 交换 一 次 为 止 。 需 要 
注意 的 是 ,在 结 点 对 交换 的 过 程 中 ,Q 值 并 不 一 定 是 单调 增加 的 。 不 过 ,即使 某 一 
步 的 交换 会 使 Q 值 有 所 下 降 ,仍然 可 能 在 其 后 的 步骤 中 出 现 一 个 更 大 的 Q 值 。 当 
交换 完毕 后 , 便 找到 上 述 交换 过 程 中 所 记录 的 最 大 的 Q 值 。 这 时 对 应 的 就 是 最 终 
结果 。 

在 整个 搜索 过 程 中 ,KL 算法 只 接受 更 好 的 候选 解 ,而 拒绝 所 有 较 差 的 候选 解 ， 
因此 它 找 到 的 解 往往 是 局 部 最 优 而 不 是 全 局 最 优 解 。KL 算法 最 大 的 局 限 性 在 于 
它 需 要 先 验 知识 (社区 的 个 数 或 社区 的 平均 规模 ) 来 产生 一 个 较 好 的 初始 结构 , 因 
为 该 算法 对 初始 解 非常 敏感 ,不 好 的 初始 解 往往 导致 缓慢 的 收敛 速度 和 较 差 的 最 
终 解 。 

2. 谱 平 分 法 

一 个 有 个 结 点 的 无 向 图 的 Laplace 矩阵 是 一 个 nXn 维 的 对 称 和 矩阵 L。 其 
中 ,L 的 对 角 线 上 的 元 素 L; 是 结 点 i 的 度 , 其 他 非 对 角 线 上 的 元 素 Lj 则 表示 结 点 i 
和 结 点 7 的 连接 关系 。 如 果 这 两 个 结 点 之 间 有 边 连 接 , 则 L; 值 为 一 1, 否 则 为 0。 
也 可 以 将 矩阵 二 表示 成 二 = K 一 A, 其 中 ,K 是 一 个 对 角 和 矩阵 ,其 对 角 线 上 的 元 素 
就 对 应 各 个 结 点 的 度 ,A 则 为 该 网 络 的 连接 矩阵 。L 矩阵 所 有 的 行 与 列 的 和 都 为 
0, 因 此 ,该 矩阵 总 有 一 个 特征 值 为 0, 且 其 对 应 的 特征 向 量 为 1 = (1, 1, …, 1)。 
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从 理论 上 可 以 证 明 ,不 为 零 的 特征 值 所 对 应 的 特征 向 量 的 各 元 素 中 ,同一 个 社团 内 
的 结 点 对 应 的 元 素 是 近似 相等 的 。 这 就 是 谱 平分 法 的 理论 基础 。 

当 一 个 网 络 中 仅 存在 两 个 社区 ,此 时 该 网 络 的 Laplace 矩阵 工 仅 对 应 两 个 对 
角 和 矩阵 块 。 对 一 个 实 对 称 的 矩阵 而 言 , 其 非 退 化 的 特征 值 对 应 的 特征 向 量 总 是 正 
交 的 。 因 此 , 除 最 小 特征 值 0 以 外 ,和 矩阵 L 其 他 特征 值 对 应 的 特征 向 量 总 是 包含 
正 、 负 两 种 元 素 。 当 网 络 由 两 个 社区 构成 时 ,就 可 以 根据 非 零 特 征 值 相应 的 特征 向 
量 中 的 元 素来 对 应 网 络 的 结 点 进行 分 类 : 所 有 正 元 素 对 应 的 那些 结 点 都 属于 同一 
个 社团 ,而 所 有 的 负 元 素 对 应 的 结 点 属于 另 一 个 社团 。 由 此 可 以 根据 网 络 的 
Laplace 矩阵 的 第 二 小 的 特征 值 K, 将 其 分 为 两 个 社团 。 这 就 是 谱 平分 法 的 基本 
思想 。 

当 网 络 的 确 是 近似 地 分 成 两 个 社团 时 ,用 谱 平 分 法 可 以 得 到 非常 好 的 效果 。 
但 是 , 当 网 络 不 满足 这 个 条 件 时 则 不 行 。 而 实际 上 ,第 二 小 特征 值 K, 可 以 作为 衡 
量 谱 平分 法 效果 的 标准 : 它 的 值 越 小 ,平分 的 效果 就 越 好 。 

一 般 情况 下 ,计算 一 个 nxXn 和 矩阵 的 全 部 特征 向 量 的 时 间 复 杂 度 为 OC(w)。 但 
是 在 大 多 数 情 况 下 ,实际 网 络 的 Laplace 矩阵 是 一 个 稀 玖 和 矩阵 ,可 以 用 Lanczos 方 
法 快速 计算 主要 的 特征 向 量 。 该 方法 的 时 间 复 杂 度 大 致 为 O(m) ,其 中 ,m 表示 
网 络 中 边 的 条 数 。 这 样 , 计 算 的 速度 可 以 得 到 明显 的 提高 。 但 是 ,如 果 不 能 很 快 
将 K; 从 其 他 特征 值 中 分 离 出 来 ,算法 就 可 能 在 一 定 程度 上 有 所 减 慢 。 换 句 话 
说 , 当 网 络 很 明显 地 分 成 两 个 社团 时 ,该 算法 的 速度 非常 快 ,否则 该 算法 就 未 必 
很 有 效 。 

3. GN 算法 

GN 算法 是 Girvan 和 Newman 于 2002 年 在 PNAS 上 发 表 论 文 提出 的 ,该 论 
文 不 仅 为 网 络 社区 结构 的 研究 拉 开 了 序幕 ,同时 也 提出 了 一 种 基于 边 介 数 (Edge- 
Betweenness) 的 分 裂 式 层次 社区 发 现 算法 , 边 介 数 是 指 网 络 中 的 某 边 是 网 络 中 任 
意 两 点 的 最 短路 径 中 边 的 个 数 , 边 介 数 的 概念 是 从 边 在 社区 中 所 起 的 作用 和 位 置 
出 发 的 , 若 某 边 的 边 介 数 很 大 时 ,说 明 这 条 边 充 当 了 多 个 点 之 间 的 桥接 , 那 它 是 两 
个 社区 之 间 的 边 的 可 能 性 也 最 大 ,因此 , 移 走 最 大 边 介 数 的 边 将 可 以 分 离 出 两 个 社 
区 。 也 就 是 说 , 若 两 个 社团 经 过 一 条 边 相连 , 则 这 两 个 社区 结 点 间 的 最 短路 径 通过 
此 边 的 次 数 最 多 , 即 该 边 边 介 数 最 大 ,通过 删除 该 边 ,两 个 社区 即 可 分 开 。 

GN 算法 就 是 利用 了 这 个 原理 , 它 首 先 将 整个 网 络 中 所 有 结 点 看 作 是 一 个 社 
区 ,然后 移 除 边 介 数 最 大 的 边 , 社 区 被 分 裂 , 接 着 在 分 裂 的 各 自 社区 中 继续 移 除 边 
介 数 最 大 的 边 ,直到 无 法 再 移 除 边 或 是 每 个 结 点 自 形 成 一 个 社区 时 停止 ,清楚 地 看 
到 这 个 迭代 的 过 程 形成 的 是 一 棵 分 裂 树 ,当选 择 分 橡树 的 不 同 地方 分 割 时 ,GN 算 
法 就 会 形成 相应 的 社区 结构 。 
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具体 算法 如 下 : 

(1) 计算 网 络 中 所 有 边 的 介 数 。 

(2) 移 除 介 数 最 高 的 边 。 

(3) 重新 计算 所 有 受 影 响 的 边 的 介 数 。 

(4) 重复 步骤 (2) ,直到 每 个 结 点 就 是 一 个 退化 社团 为 止 。 

分 裂 过 程 中 算法 可 在 任意 时 刻 终止 ,并 得 到 当前 结果 作为 发 现 的 社区 结构 。 
因此 循环 终止 的 条 件 可 以 有 很 多 种 ,例如 限定 划分 的 社区 结构 、 得 到 的 社区 结构 性 
质 ( 强 连通 、 弱 连通 ) 模块 度 要 求 等 。 

使 用 GN 算法 可 以 较 好 地 发 现 网 络 存在 的 社区 结构 ,算法 对 存在 孤立 结 点 的 
网 络 .全 连接 社区 .无 权 图 ,高 内 聚 网 络 等 特殊 形式 , 均 表现 出 良好 的 鲁 棒 性 。 

GN 算法 一 经 提出 ,就 受到 广泛 关注 ,在 社区 发 现 算法 中 占有 相当 重要 的 
位 置 。 

4. W-H 算法 

Wu 和 Huberman 提出 一 种 基于 电阻 网 络 电压 谱 的 快速 谱 分 割 法 ,算法 复杂 
度 只 有 OCm 十 7) ,是 一 种 线性 算法 复杂 度 的 算法 。 利 用 该 算法 不 仅 可 以 求 出 网 
络 的 社区 结构 ,还 可 以 在 不 考虑 整个 网 络 社区 结构 的 情况 下 ,寻找 一 个 已 知 结 点 所 
在 的 整个 社区 ,而 无 须 计 算出 所 有 的 社区 ,这 是 其 他 很 多 算法 都 无 法 实现 的 。 但 
W-H 算法 的 缺点 在 于 ,在 没有 预先 知道 社区 数目 的 情况 下 无 法 使 用 。 

假设 图 G=(V,E) 可 以 分 为 两 个 社团 G 和 G: , 且 已 知 结 点 A 和 B 分 别 属于 
这 两 个 社团 。 令 结 点 A 为 源 结 点 ,电压 值 为 1, 而 结 点 B 为 终结 点 ,电压 值 为 0。 
此 时 ,网络 中 的 每 条 边 都 视 为 一 个 阻 值 为 1 的 电阻 。 整 个 网 络 就 可 以 看 成 一 个 电 
阻 网 络 , 从 而 可 以 利用 Kirchhoff 定理 求 各 个 几 点 的 电压 值 。 然 后 ,选取 一 个 电压 
阅 值 V(0 二 V 二 1)。 车 结 点 i 的 电压 值 V; 之 V, 则 认为 它 属于 源 结 点 A 所 在 的 社 
团 ,反之 则 属于 终结 点 B 所 在 的 社团 。 实 际 上 ,可 以 利用 谱 线 图 来 记录 电压 值 : 在 
0~1 的 范围 内 ,将 电压 值 从 小 到 大 进行 排列 ,然后 用 不 同位 置 的 谱 线 图 来 记录 电 
压 值 。 这 样 构成 的 谱 线 图 就 称 为 电压 谱 。 然 后 选取 某 个 冰 值 ,认为 该 冰 值 左边 的 
谱 线 相应 的 结 点 属于 一 个 社团 ,而 右边 的 那些 结 点 就 属于 另 一 个 社团 。 

算法 采用 统计 法 来 选取 分 别 位 于 两 个 不 同 社区 内 的 结 点 。 社 团 内 部 的 联系 比 
较 紧密 ,而 社团 之 间 的 结 点 的 联系 就 相对 比较 松散 。 因 此 ,只 要 两 个 点 的 距离 大 于 
2 就 极 有 可 能 位 于 不 同 的 两 个 社团 。 在 这 个 思想 下 ,算法 可 以 分 两 步 进行 : 首先 ， 
随机 选取 若干 对 距离 大 于 2 的 结 点 ,例如 50 对 ,并 对 每 一 个 结 点 对 利用 电压 谱 将 
网 络 划 分 为 两 个 社团 ,由 此 就 可 以 得 到 100 个 社团 。 然 后 ,从 网 络 中 任意 选择 一 个 
结 点 作为 参考 结 点 ,看 其 他 结 点 与 该 结 点 同时 出 现在 一 个 社团 内 的 概率 ,如 果 超 过 
50%% , 则 认为 这 两 个 结 点 属于 同一 个 社团 ,反之 则 认为 他 们 属于 两 个 不 同 的 社团 。 
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5. FastNewMan 算法 

在 动 辑 包 含 几 百 万 个 以 上 结 点 的 大 型 网 络 中 ,传统 的 GN 算法 就 不 能 满足 要 
求 。 基 于 这 个 原因 ,Newman 在 GN 算法 的 基础 上 提出 了 一 种 快速 算法 , 它 可 以 用 
于 分 析 结 点 数 达 100 万 的 复杂 网 络 。 这 种 快速 算法 实际 上 是 基于 贪 禁 算法 思想 的 
一 种 凝聚 算法 。 算 法 如 下 : 

(1) 初始 化 网 络 ,将 每 个 结 点 看 作 是 一 个 独立 社团 。 初 始 的 e; 和 a; 满足 er 一 
1/2m, 如 果 结 点 i 和 j 之 间 有 边 相 连 , 其 他 a; 二 ki/2 m 其 中 上 ;为 结 点 i 的 度 ,m 为 
网 络 中 总 的 边 数 。 

(2) 依次 合并 有 边 相 连 的 社团 对 ,并 计算 合并 后 的 Q 值 增 量 : $ Q=eij 十 ej 一 
2aiaj 二 2(es 一 Qia;)。 根 据 贪 禁 算 法 的 原理 ,每 次 合并 应 该 沿 着 使 Q 增 大 最 多 或 者 
减少 最 小 的 方向 进行 。 该 步 的 算法 复杂 度 为 O(m)。 每 次 合并 以 后 ,对 相应 的 元 素 
乌 更 新 ,并 将 与 i\j 社团 相关 的 行 和 列 相 加 。 该 步 的 时 间 复 杂 度 为 O(n)。 因 此 , 步 
又 (2) 总 的 时 间 复 杂 度 为 OGm 十 n) 。 

(3) 重复 执行 步骤 (2) ,不 断 合 并 社团 ,直到 整个 网 络 都 合并 成 为 一 个 社团 。 
最 多 要 执行 n 一 1 次 合并 。 

该 算法 总 的 算法 复杂 度 为 OC(m 十 n)n) ,对 于 稀 朴 网 络 则 为 O02 ) 。 整 个 算法 
完成 后 可 以 得 到 一 个 社团 结构 分 解 的 树 状 图 。 再 通过 选择 在 不 同位 置 断 开 可 以 得 
到 不 同 的 网 络 社团 结构 。 在 这 些 社团 结构 中 ,选择 一 个 对 应 着 局 部 最 大 Q 值 的 ,就 
得 到 最 好 的 网 络 社团 结构 。 


3.2 重 琶 社区 发 现 


作为 复杂 理论 的 一 个 重要 支撑 ,研究 网 络 已 经 被 证 明 是 理解 许多 自然 和 人 工 
系统 的 结构 与 功能 的 最 有 效 的 内 容 , 而 且 , 复 杂 网 络 的 最 普通 的 特征 就 是 社区 结 
构 , 因 此 ,发 现 社区 结构 并 分 析 是 了 解 现实 生活 中 各 种 网 络 组 织 结构 的 一 种 很 重要 
的 方法 ,在 生物 学 .计算 机 科学 以 及 社会 学 等 领域 都 有 着 广泛 的 应 用 。 


3.2.1 重 情 社区 发 现 


通常 ,社区 指 的 是 一 组 结 点 在 组 内 比 网 络 其 他 部 分 的 结 点 连接 得 更 紧密 ,模块 
和 社区 反映 了 网 络 元 素 之 间 的 拓扑 关系 和 代表 功能 实体 。 比 如 说 ,社区 可 能 是 社 
会 网 络 中 一 群 相 关 个 体 的 群体 ,或 是 一 组 处 理 同一 个 主题 的 网 页 集合 ,也 可 能 是 在 
循环 代谢 网 络 中 的 一 条 生物 化 学 链 。 因 此 ,复杂 网 络 中 的 社区 确认 是 非常 重要 的 ， 
然而 它 也 有 许多 难题 需要 研究 者 们 去 钻研 。 

摆 在 研究 者 面前 的 难题 中 ,社区 的 重 秋 性 是 其 中 重要 的 一 个 问题 。 社 区 的 重 
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和 性 是 指 网 络 中 的 结 点 经 常 属于 不 止 一 个 模块 或 社区 ,也 就 是 属于 多 个 社区 ,这 就 
形成 了 重 和 至 社区 。 事 实 上 ,社区 的 重要 性 是 个 显而易见 的 网 络 特性 ,比如 说 ,在 社 
会 网 络 中 的 每 个 个 体 , 网 络 中 每 个 个 体 都 可 能 依附 于 多 种 关系 ,比如 说 : 家 庭 、 朋 
友 、 专 业 、 兴 趣 爱 好 等 ,假如 按照 这 些 依附 关系 去 进行 个 体 划分 ,就 会 清楚 地 发 现 每 
个 个 体 都 可 以 属于 不 同 的 社区 。 然 而 ,重生 性 的 存在 给 社区 发 现 带 来 了 困扰 ,重生 
性 会 降低 已 发 现 社区 的 质量 ,更 进一步 来 说 , 重 释 性 会 隐藏 一 些 重 要 的 信息 ,由 此 
会 经 常 产生 结 点 的 误 判 。 

图 3. 2 是 描述 的 重 倒 社区 的 一 个 例子 ,从 图 3. 2 中 可 以 看 到 , 浅 色 结 点 分 别 
组 成 了 三 个 独立 的 社区 , 深 色 结 点 在 多 个 社区 之 间 担 任 着 重要 的 角色 ,它们 属于 
多 个 社区 ,并 和 这 些 社区 保持 着 同等 重要 的 关系 ,因此 这 些 深 色 结 点 被 视 作 重生 


js 


图 3.2 重合 社区 例子 
(资料 来 源 : Lancichinetti, Fortunato. Detecting the Overlapping and Hierarchical Community 
Structure in Complex Networks. New J Physics, 2009, 11(3): 033015.) 


3.2.2 重 姆 社区 发 现 算法 分 类 


1. EAGLE 算法 一 一 基于 重合 社区 模块 度 优化 算法 

Newman 和 Girvan 于 2004 年 提出 了 一 个 衡量 网 络 社 区 结构 优 劣 的 量化 标 
准 一 一 模块 度 (Modularity) 函数 ,模块 度 函 数 是 通过 考查 结 点 的 度 分 布 来 测量 现 
实 的 社会 网 络 中 社区 划分 粒度 的 方法 ,其 根本 思想 是 将 划分 后 的 社区 结构 中 的 结 
点 之 间 的 连接 情况 与 相应 的 零 ( 或 随机 ) 模 型 的 连接 期 望 进行 比较 以 确定 划分 的 质 
量 。 零 (或 随机 ) 模 型 是 指 与 现实 的 网 络 具 有 相同 的 性 质 ( 如 相同 边 数 或 度 序列 )， 
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而 在 其 他 方面 完全 随机 的 随机 图 模型 。 自 模块 度 函 数 被 提出 后 ,其 成 为 当前 社区 
发 现 算法 中 应 用 最 为 广泛 的 判定 社团 关系 强 弱 的 指标 ,Newman 在 模块 度 提 出 的 
同一 年 也 提出 了 基于 模块 度 优化 的 社区 发 现 FastNewman 算法 ,该 算法 的 核心 思 
想 是 取 模 块 度 最 大 的 社区 划分 ,其 时 间 复 杂 度 是 O(mn)。 尽 管 基于 模块 度 优 化 的 
社区 发 现 方法 已 成 为 复杂 网 络 社区 发 现 领域 中 的 主流 方法 之 一 ,例如 : 模拟 退火 
算法 .数学 规划 方法 等 ,然而 研究 者 们 已 证 明 优化 模块 度 的 方法 是 个 NP 难 问题 ， 
但 是 ,这 些 近 似 算法 在 某 种 意义 下 可 以 得 到 复杂 网 络 的 非 重 又 的 社区 划分 。 因 此 ， 
对 于 具有 重生 性 的 社区 ,一些 研 究 者 类 推 模块 度 的 定义 给 出 具有 重 倒 性 的 模块 度 
定义 ,更 进一步 延伸 模块 度 优化 的 方法 到 重 琶 社区 发 现 。 

有 的 学 者 人 直接 从 Newman 的 非 重 琶 社 区 发 现 算法 的 模块 度 定 义 出 发 ,给 出 
一 种 简单 的 针对 重 释 社区 的 模块 度 定义 ,这 个 定义 的 前 提 条 件 是 网 络 的 社区 结构 
已 经 得 到 划分 ,并 且 允 许 网 络 中 的 结 点 可 以 同时 属于 多 个 社区 ,定义 如 公式 (3-2) 
所 示 : 


ER= LR HT -1 (4 和- 各: (3-2) 


2m 乞 Ee Oy 2m 

其 中 ,公式 (3-2) 中 O, 表示 结 点 v 所 属于 的 社区 的 个 数 ,m 是 实际 网 络 的 总 边 数 ， 
Aw 对 应 结 点 v 和 了 mm 的 链接 关系 ,在 无 权 值 的 网 络 中 ,A 用 1 和 0 代表 链接 和 不 链 
接 关 系 ,在 有 权 值 的 网 络 中 ,A 可 用 边 ew 权 值 代表 链接 关系 ,k, 表示 结 点 v 的 度 
数 。 从 公式 中 不 难看 出 , 当 每 个 结 点 只 能 属于 一 个 社区 时 ,这 个 公式 得 出 的 EQ 
就 退化 为 非 重 琶 社区 的 模块 度 Q 值 。 同 样 ,该 定义 具有 和 模块 度 Q 值 类 似 的 性 
质 , 即 当 所 有 结 点 属于 一 个 社区 时 ,模块 度 Q 的 值 为 0; EQ 值 的 大 小 反映 出 网 络 
重 释 结 构 的 明显 度 , 即 当 EQ 模块 度 值 越 大 时 ,其 所 表示 的 网 络 重 全 社区 结构 越 
明显 。 

自 此 之 后 ,Shen 在 文中 提出 了 一 种 同时 发 现 满足 层次 性 和 重 县 性 的 分 层 凝聚 
的 EAGLE 算法 。 该 算法 与 传统 的 基于 结 点 之 间 不 断 聚 合 的 社区 发 现 方法 不 同 ， 
其 处 理 的 对 象 是 网 络 中 的 极 大 团 ,通过 极 大 团 的 不 断 聚 合 来 形成 网 络 社区 的 划分 。 
所 谓 的 极 大 团 (Maximal Clique) 是 指 极 大 团 所 构成 的 结 点 集合 不 是 任意 其 他 结 点 
集合 的 子 集 ,也 就 是 这 个 结 点 集合 是 包含 这 些 结 点 的 最 大 的 团体 , 且 不 能 再 分 割 为 
更 小 的 团体 。EAGLE 算法 分 为 两 个 阶段 ,第 一 个 阶段 是 通过 搜索 网 络 中 极 大 团 
的 方法 生成 网 络 的 树 状 图 ,第 二 个 阶段 是 选择 合适 的 位 置 断 开 生成 树 , 断 开 生成 树 
的 办 法 就 是 通过 上 述 测量 公式 的 重 又 模块 度 值 ,EQ 值 越 大 意味 着 分 割 越 好 ,由 此 
得 到 相应 的 社区 划分 结构 。 在 第 一 个 阶段 中 ,首先 EAGLE 算法 采用 成 熟 的 Bron- 
Kerbosch 算法 找 出 网 络 中 所 有 的 极 大 团 。 为 了 避免 次 大 团 对 于 算法 搜索 过 程 所 
产生 的 误导 作用 ,算法 会 通过 设置 相应 的 装 值 & 去 屏蔽 掉 一 些小 规模 (小 于 &) 的 极 
大 团 , 闵 值 的 大 小 决定 了 被 忽略 的 极 大 团 的 多 少 ,k 值 越 大 意味 着 屏蔽 的 极 大 团 
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数目 越 多 ,反之 ,一 些 次 大 团 将 会 被 保留 下 。 其 次 ,在 确定 好 极 大 团 之 后 ,EAGLE 
算法 通过 测量 任意 两 个 极 大 团 之 间 的 相似 性 ,并 选择 相似 性 最 大 的 极 大 团 进行 合 
并 形成 新 的 大 团 , 不 断 重复 这 个 步骤 ,直到 只 有 一 个 社区 为 止 。 测 量 社区 之 间 的 相 
似 性 的 办 法 就 是 采用 一 定 的 变形 ,针对 两 个 社区 的 重 又 模块 度 的 定义 。 

假设 网 络 中 有 nn 个 结 点 ,EAGLE 算法 在 第 一 个 阶段 的 时 间 复 杂 度 为 O(n 十 
(十 s)s) ,在 第 二 阶段 的 时 间 复 杂 度 是 O(n?s) ,其 中 ,s 是 指 在 第 一 个 阶段 中 所 搜索 
出 的 极 大 团 的 个 数 ,h 是 指 在 第 一 个 阶段 中 相 邻 的 极 大 团 的 成 对 个 数 。 因 此 ,综合 
两 个 阶段 来 看 ,EAGLE 算法 的 时 间 复 杂 度 是 O(n?s)。 

2. CPM 算法 一 一 基于 派系 过 滤 算 法 

有 的 学 者 提出 派系 过 滤 算 法 ,派系 过 滤 算 法 的 本 质 特征 是 重新 给 出 社区 的 新 
定义 或 者 说 是 关于 社区 的 另 一 个 前 提 条 件 ,其 认为 典型 的 社区 应 是 一 些 全 连通 的 
完全 子 图 ,这 些 完 全 子 图 通常 被 称 之 为 团 , 也 称 作 派系 (Clique) ,这 些 团 ( 或 派系 ) 
则 表现 出 团 内 部 的 边 连 接 密度 较 高 ,而 在 团 之 间 的 边 形 成 团 的 可 能 性 较 小 的 特性 ， 
因此 ,派系 过 滤 算 法 的 主要 目的 就 是 找到 这 些 紧密 相连 的 完全 团 。 通 常 ,由 & 个 结 
点 组 成 的 完全 子 图 叫做 k- 派 系 (k-Clique) ,如 果 两 个 大 派系 有 A 一 1 个 共享 结 点 , 则 
称 它 们 是 相 邻 的 派系 。 更 进一步 说 ,派系 过 滤 算 法 的 目的 是 找 出 网 络 中 最 大 的 全 
连通 子 图 (或 称 为 派系 ) ,这 些 全 连通 子 图 之 间 共 享 的 结 点 就 是 重 笃 结 点 ,具有 重 释 
结 点 的 派系 过 滤 算 法 的 社团 示意 图 如 图 3. 3 所 示 。 


图 3. 3 有 重叠 结 点 的 派系 示意 图 
(资料 来 源 : Palla，Derenyi，Farkas。Uncovering the Overlapping Community Structure of 
Complex Networks in Nature and Society. Nature, 2005, 435: 814-818. ) 
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作为 派系 过 滤 算 法 的 起 源 算法 ,CPM(Clique Percolation Method) 算 法 的 主要 
思想 是 首先 从 网 络 中 找 出 所 有 大 小 为 k 的 团 ,然后 再 把 找 出 的 每 个 & 团 作为 结 点 
构建 一 个 新 图 ,假如 两 个 & 团 共享 一 1 个 结 点 时 ,那么 新 图 中 两 个 对 应 的 结 点 之 
间 才 会 有 边 , 最 后 新 图 中 每 个 连通 子 图 所 对 应 的 k 团 集合 才 构 成 了 一 个 社区 。 因 
此 ,可 以 看 到 ,CPM 算法 是 通过 合并 全 连通 子 图 的 方法 来 构建 社区 的 ,同时 ,由 于 
一 个 结 点 可 能 会 同时 属于 多 个 & 团 ,所 以 CPM 确定 的 社区 自然 会 出 现 重生 ,这 意 
味 着 CPM 可 实现 重要 社区 的 发 现 。 

CPM 算法 的 实施 过 程 简要 描述 : 首先 , 找 出 网 络 中 所 有 的 完全 子 图 , 且 保 证 
这 些 完 全 子 图 不 是 更 大 的 完全 子 图 的 子 图 ,这 些 完 全 子 图 就 是 派系 过 滤 算 法 中 所 
说 的 派系 (Clique) 。 事 实 上 ,派系 与 k- 派 系 的 本 质 区 别 是 派系 可 以 是 更 大 完全 子 
图 的 子 集 。 一 旦 派系 确定 , 接 下 来 就 可 形成 派系 与 派系 之 间 的 (Clique-Clique) 重 
全 矩阵。 重 秋 的 对 称 矩 阵 中 每 一 行 (或 列 ) 表 示 一 个 派系 ,和 矩阵 元 素 等 于 两 个 对 应 
的 派系 的 共同 结 点 ,对 角 线 上 的 元 素 等 于 派系 的 大 小 。 对 于 给 定 & 值 的 人 派系 社 
区 等 价 于 相互 连通 的 相 邻 派系 连接 至 少 具有 k 一 1 个 共同 结 点 ,而 这 些 部 分 是 可 以 
在 对 称 矩 阵 中 得 到 ,即将 对 称 矩 阵 中 非 对 角 线 上 值 小 于 &A 一 1 的 元 素 以 及 对 角 线 上 
值 小 于 &A 的 元 素 用 0 代替 ,用 1 代替 剩 下 的 元 素 , 由 此 就 完成 了 派系 之 间 的 重 和 至 和 矩 
阵 组 成 的 分 析 转 化 ,转化 后 的 矩阵 中 剩 下 的 为 1 的 部 分 就 是 二 派系 社区 ,该 分 析 过 
程 如 图 3.4 所 示 。 


图 3.4 大 派系 社区 的 分 析 过 程 
(资料 来 源 : Palla，Derenyi，Farkas。 Uncovering the Overlapping Community Structure of 
Complex Networks in Nature and Society. Nature, 2005, 435: 814-818. ) 


尽管 CPM 算法 对 重 双 社区 的 发 现 一 般 来 说 是 非常 有 效 的 ,然而 ,由 于 CPM 
算法 所 基于 的 新 的 社区 定义 或 者 说 是 前 提 假 设 , 因 此 ,其 不 可 避免 地 有 以 下 缺点 : 
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(1) 计算 网 络 中 的 全 部 大 团 非常 耗 时 ,其 时 间 复 杂 性 近似 为 指数 阶 。 

(2) 当 网 络 中 的 全 连通 子 图 非常 少时 , 它 就 难以 体现 优势 了 。 

(3) 参数 & 值 确定 困难 :不同 的 & 值 将 会 得 到 不 同 的 网 络 社团 结构 。 

3. CONGA 算法 一 一 基于 分 裂 介 数 的 GN 算法 

2007 年 在 第 11 界 欧洲 国际 数据 挖掘 原理 与 发 现 会 议 (PKDD) 上 ,Gregory 提 
出 了 一 个 改进 GN 算法 的 重 释 社区 发 现 算法 一 一 CONGA 算法 (Cluster-Overlap 
Newman Girvan Algorithm) 。 

GN 算法 有 两 个 重要 的 问题 引起 了 研究 者 的 注意 ,其 一 是 该 算法 的 时 间 复 杂 
度 很 高 ,因为 算法 每 次 都 要 重新 计算 网 络 中 所 有 边 的 边 介 数 , 当 网 络 中 的 结 点 数目 
很 大 时 ,这 个 计算 过 程 是 非常 耗 时 的 ; 其 二 是 GN 算法 是 对 复杂 网 络 的 一 种 硬 分 
类 , 即 每 个 结 点 有 且 仅 能 属于 一 个 社区 ,这 点 是 和 实际 的 网 络 结构 不 相符 的 ,因为 
大 多 数 的 实际 网 络 都 是 有 重 和 至 结构 的 。 

因此 ,CONGA 算法 改进 GN 算法 使 之 能 进行 重叠 社区 发 现 ,其 主要 的 贡献 
是 : 其 一 ,定义 了 网 络 中 的 结 点 介 数 , 结 点 介 数 是 在 边 介 数 的 基础 上 定义 的 ,目的 
是 找 出 那些 结 点 介 数 高 的 结 点 ,类似 于 边 介 数 的 意义 , 结 点 介 数 高 的 结 点 是 重 全 结 
点 的 可 能 性 比 其 他 结 点 高 , 若 将 这 样 的 结 点 归属 于 某 一 个 社区 ,这 蚌 不 合理 的 , 因 
此 ,CONGA 算法 采用 的 办 法 是 分 裂 结 点 介 数 高 的 结 点 为 多 个 ,相当 于 复制 了 一 个 
结 点 的 副本 ,原始 结 点 和 副本 结 点 之 间 增 加 一 条 虚 边 , 然 后 再 去 完成 GN 算法 。 其 
二 ,定义 了 分 裂 介 数 的 概念 ,此 概念 的 作用 是 用 来 判定 在 什么 时 候 分 裂 结 点 以 及 怎 


样 分 询 结 点 ,这 一 步 在 算法 中 很 关键 ,其 有 机 地 与 结 点 介 数 和 边 介 数 结合 为 一 体 促 
使 CONGA 算法 成 为 完成 的 整体 。 图 3. 5 解释 了 在 网 络 中 如 何 分 列 结 点 的 过 程 。 
(8) 0D) 包 ) ) 
区 
@ © (©O (E) 


图 3.5 CONGA 算法 分 裂 结 点 的 示意 图 
(资料 来 源 : Gregory. An Algorithm to Find Overlapping Community Structure in Networks. 
Proc 11th European Conf Principles & Practice of Knowledge Discovery in Databases, LNAI, 
2007, 4702: 91-102. ) 


CONGA 算法 的 具体 过 程 步骤 如 下 所 示 : 
(1) 计算 网 络 中 所 有 边 的 边 介 数 。 
(2) 利用 边 介 数 计算 结 点 的 结 点 介 数 ,定义 如 式 (3-3) 所 示 : 


二 二 和 ot 二 克 三 惫 (3-3) 
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其 中 ,T(v) 是 以 vv 为 终点 的 边 集合 ,n 是 保留 结 点 wv 在 内 的 社区 块 中 结 点 的 个 数 ， 
Ca(e) 表 示 边 。 的 边 介 数 ,Ca(v) 表 示 结 点 v 的 结 点 介 数 。 

(3) 构成 结 点 介 数 大 于 最 大 边 介 数 的 结 点 候选 集合 。 

(4) 若 候选 集合 非 空 ,计算 候选 集合 中 结 点 对 的 介 数 ,以 及 计算 候选 结 点 的 分 
裂 介 数 ; 否则 执行 步骤 (5) 。 

(5) 若 最 大 的 结 点 的 分 裂 介 数 大 于 最 大 的 边 介 数 , 则 分 裂 这 个 具有 最 大 分 裂 
介 数 的 结 点 ; 否则 按照 GN 算法 的 步骤 删除 最 大 边 介 数 的 边 。 

(6) 删除 边 或 分 裂 结 点 后 ,重新 计算 每 个 分 割 部 分 的 所 有 剩余 边 的 边 介 数 。 

(7) 重复 步 又 (2) 一 (6) ,直到 网 络 中 不 再 有 需要 计算 的 边 。 

与 GN 算法 相 比较 而 言 ,CONGA 算法 采用 分 裂 结 点 的 方法 来 发 现 社区 之 间 
的 重 琶 性 和 重 倒 结 点 ,然而 ,由 于 算法 中 通过 分 裂 结 点 为 多 个 复制 结 点 ,实际 上 是 
增加 了 网 络 中 的 结 点 数目 ,一 旦 网 络 中 需要 分 裂 的 结 点 数目 很 多 时 ,其 计算 过 程 是 
相当 大 的 ,即使 分 裂 的 结 点 数目 少 的 情况 下 ,CONGA 算法 也 只 是 仅仅 减少 了 计算 
结 点 介 数 的 时 间 ,并 没有 减少 算法 本 身 的 总 体 时 间 。GN 算法 在 最 坏 的 时 间 情 况 
下 时 间 复 杂 度 是 OGm?n) ,而 CONGA 算法 的 时 间 复 杂 度 也 是 Om ) ,m 是 实际 网 
络 中 的 边 的 总 数目 。 

4. LFM 算法 一 一 基于 局 部 扩展 的 算法 

2009 年 Lancichinetti 提出 了 一 种 从 局 部 出 发 的 既 可 以 找到 重 倒 社区 又 可 以 
找到 层次 结构 的 LFM 算法 (Local Fitness Method)。LFM 算法 有 两 个 重要 的 优 
势 ,第 一 个 优势 是 提出 了 拟 合 度 (Fitness) 函 数 的 概念 , 拟 合 度 函 数 其 实 是 社区 定义 
的 最 直接 反映 。 拟 合 度 函数 定义 如 式 (3-4) 所 示 : 
fa 

. (AS + ks, )” 

其 中 ,如 是 社区 G 内 部 的 边 数 ,k5, 是 社区 G 外 部 的 边 数 ,外 部 指 的 是 有 一 个 结 点 在 
社区 G 内 ,a 是 一 个 控制 社团 规模 的 参数 。 该 公式 表示 社区 内 部 的 边 数 占 社区 总 
链接 边 数 的 比重 ,显然 ,这 个 公式 可 直接 类 推 到 有 权 值 的 网 络 ,对 于 有 权 值 的 网 络 ， 
如 和 k&% 分 别 可 表示 社区 G 内 部 的 权 值 和 外 部 的 权 值 。 控 制 参 数 a 的 值 可 以 用 来 
调节 社团 的 大 小 。 

第 二 个 优势 是 利用 拟 合 度 函数 的 不 断 优化 且 从 局 部 搜索 结 点 ,从 而 发 现 网 络 
的 社区 结构 。 作 者 认为 在 实际 的 复杂 网 络 中 ,社区 事实 上 基本 表现 出 一 种 局 部 特 
性 的 状态 ,因此 ,有 效 的 社区 应 从 局 部 的 自然 状态 开始 。 

LFM 算法 的 具体 过 程 总 结 如 下 。 

(1) 随机 选择 网 络 中 的 一 个 孤立 结 点 (孤立 结 点 是 指 未 归属 于 任何 一 个 社区 
的 结 点 ) 作 为 社区 G 的 初始 成 员 , 且 初始 化 社区 的 恕 二 0。 

(2) 计算 社区 G 的 所 有 邻居 结 点 对 G 的 拟 合 度 函 数 贡 献 值 , 结 点 对 社区 的 拟 
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度 贡献 值 定义 如 式 (3-5) 所 示 

fe fon = fem (3-5) 
其 中 , /e+ 表示 社区 G 中 添加 结 点 a 后 形成 的 社区 的 拟 合 度 函 数 , fc- 表示 社 
区 G 中 删除 结 点 a 后 形成 的 社区 的 拟 合 度 函 数 ,这 个 值 反映 了 结 点 a 添加 到 社区 
G 后 所 引起 的 适应 度 变 化 。 假 如 结 点 对 社区 的 贡献 值 让 之 0, 意 味 着 在 社区 G 中 
添加 结 点 a 会 增加 社区 的 拟 合 度 值 ,说 明 结 点 a 应 被 加 入 到 社区 G 中 ; 反之 , 结 点 
对 社区 的 贡献 值 卜 二 0 ,意味 着 在 社区 G 中 添加 结 点 a 会 减少 社区 的 拟 合 度 值 ,说 
明 结 点 a 应 从 社区 G 中 删除 。 

(3) 选 出 拟 合 度 贡 献 值 为 正 值 且 最 大 的 邻居 结 点 ,并 将 其 加 入 到 社区 G 中 ,得 
到 新 的 社区 G'; 否则 ,车 社区 G 的 所 有 邻居 结 点 对 G 的 拟 合 度 贡 献 值 都 为 负 值 
时 ,循环 过 程 停止 , 转 到 步骤 (6) 。 

(4) 当 社 区 发 现 变 化 后 , 即 产 生 了 新 的 社区 G ,重新 计算 社区 G 中 所 有 结 点 
对 社区 G“ 的 拟 合 度 贡 献 值 。 假 若 某 个 结 点 的 拟 合 度 贡 献 值 为 负 值 , 则 将 这 个 结 点 
从 社区 G 中 删除 ,得 到 新 的 社区 G”。 

(5) 若 步骤 (4) 中 有 结 点 从 社区 G 中 删除 了 , 则 返回 步骤 (4) 计 算 ; 反之 , 若 步 
又 (4) 中 所 有 结 点 对 社区 G' 的 拟 合 度 贡献 值 都 为 正 值 , 则 返回 步骤 (2) 。 

(6) 经 过 步骤 (2) 一 (5) 不 断 循环 ,算法 完成 了 第 一 个 随机 结 点 所 在 的 社区 G 
的 遍历 搜索 过 程 ,之 后 ,选择 下 一 个 孤立 结 点 ,返回 步骤 (1) 继 续 下 一 个 社区 的 探测 
过 程 , 直 到 网 络 中 的 所 有 结 点 都 已 经 被 划分 到 至 少 一 个 社区 为 止 。 

LFM 算法 结束 后 ,从 算法 的 执行 过 程 中 会 看 到 有 一 些 结 点 被 划分 到 不 止 一 个 
社区 ,这 些 结 点 就 是 重 释 结 点 ,或 者 说 是 所 谓 的 “ 骑 墙 ? 结 点 ,由 此 表现 出 社区 结构 
的 重 秋 性 。 此 外 ,初始 结 点 选择 的 随机 性 会 给 算法 带 来 一 些 社 区 结构 的 不 同 。 
LFM 算法 的 时 间 复 杂 度 主要 取决 于 社团 的 大 小 和 结 点 的 重 释 程 度 , 若 对 于 层次 网 
络 来 说 ,在 最 坏 的 情况 下 的 计算 复杂 度 是 O(n?1logn) 。 

5. LC 算法 一 一 基于 边 划 分 的 算法 

算法 1 至 算法 4 也 可 称 之 为 结 点 划分 的 方法 ,这 些 方法 的 划分 思路 是 从 结 点 
的 角度 出 发 ,把 网 络 中 的 结 点 看 作 是 研究 对 象 ,根据 结 点 之 间 相 近 程 度 的 衡量 , 决 
定 了 网 络 中 的 每 个 点 的 归属 问题 ,最 后 得 到 了 整个 网 络 的 划分 ,而 且 在 某 一 时 刻 ， 
每 个 点 只 能 归属 于 唯一 的 一 个 社区 ,然而 ,在 现实 世界 的 各 种 复杂 网 络 中 , 重 秋 性 
是 显然 存在 的 ,因此 , 结 点 划分 的 这 一 特性 必然 给 具有 重 释 性 的 复杂 网 络 的 社区 发 
现 带 来 困扰 。 

2009 年 Evans 针对 这 种 结 点 划分 方法 的 不 足 , 提 出 了 从 边 的 角度 出 发 进行 社 
区 划分 的 思路 。 以 边 作 为 研究 对 象 而 不 是 结 点 作为 研究 对 象 ,这 个 想法 是 基于 边 
在 社区 划分 过 程 中 在 每 个 时 刻 都 是 属于 唯一 一 个 社区 的 ,也 就 是 边 只 能 被 一 个 社 
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区 所 包含 ,因此 按照 边 之 间 的 相近 程度 来 对 复杂 网 络 进行 社区 划分 ,这 样 可 各 免 重 

至 结 点 对 划分 结果 的 影响 。Evans 首先 对 原始 的 复杂 网 络 进行 了 变换 ,通过 边 表 

示 结 点 ,用 共同 相 邻 的 结 点 来 形成 边 , 由 此 就 将 结 点 网 络 转换 成 了 对 应 的 边 网 络 ， 
然后 在 边 网 络 中 选择 合适 的 社区 划分 方法 ,就 可 得 到 网 络 的 社区 结构 。 边 划分 的 
思想 示意 图 如 图 3. 6 所 示 。 


图 3.6 边 社区 的 划分 示意 图 
(资料 来 源 : Evans, Lambiotte. Line Graphs, Link Partitions, and Overlapping 
Communities. Physical Review E, 2009, 80(1): 016105.) 


从 图 3.6 中 可 以 看 出 , 若 以 边 进行 社区 划分 之 后 ,左边 实 线 所 链接 的 这 些 结 点 
属于 一 个 社区 ,而 右边 虚线 链接 的 结 点 属于 另 一 个 社区 ,社区 结构 是 很 明显 的 , 且 
每 条 边 仅 属于 一 个 社区 ,而 浅 色 阴 影 结 点 就 属于 重 又 结 点 , 它 属于 两 个 社区 ,在 边 
社区 划分 中 ,这 个 结 点 是 边界 结 点 , 它 并 不 影响 社区 结构 的 划分 。 

边 社区 划分 的 方法 统称 为 LC(Link Clustering) 算 法 ,这 个 算法 的 主要 思想 就 
是 确定 边 之 间 的 相似 度 , 然 后 采用 聚合 的 方法 不 断 把 相似 的 边 聚 合 , 或 者 不 断 把 相 
邻 且 相似 度 高 的 小 社区 合并 ,反复 这 样 的 聚合 过 程 , 最 后 就 得 到 整个 网 络 的 社区 结 
构 。 其 中 , 边 之 间 的 相似 度 的 构造 方法 中 ,一 种 简单 方法 是 将 原 有 网 络 中 的 点 与 点 
的 链接 矩阵 变换 成 点 与 边 的 关联 矩阵 ,关联 矩阵 中 包含 了 点 与 连接 边 之 间 的 关系 ， 
通过 矩阵 变化 可 进一步 得 到 边 与 边 之 间 的 关系 矩阵 ,而 这 个 关系 矩阵 就 是 边 图 的 
关系 体现 。 另 一 种 常用 方法 是 利用 边 所 链接 的 结 点 之 间 的 链接 关系 来 构造 其 相似 
度 , 如 式 (3-6) 所 示 。 

Ce 2 (3-6) 

公式 中 的 n+ (让 表示 结 点 i 的 广泛 邻居 结 点 , 它 指 的 是 与 结 点 i 直接 相 邻 接 的 
结 点 所 构成 的 集合 , 边 ei 的 两 个 端点 是 结 点 i 和 结 点 &, 边 ej 的 两 个 端点 是 结 点 j 
和 结 点 &, 结 点 & 是 两 条 边 的 公共 结 点 .这 个 公式 的 目的 就 是 通过 测量 边 的 端点 之 
间 的 链接 共同 性 来 反映 边 之 间 的 相似 性 , 即 若 结 点 站 和 结 点 7 的 链接 的 共同 结 点 
数目 越 多 ,或 结 点 i 和 结 点 j 的 链接 情况 相同 , 则 边 ex 和 边 ej 的 相似 性 越 高 。 一 
旦 得 到 了 边 之 间 的 相似 性 的 量化 ,就 可 采取 聚合 的 方法 得 到 以 边 为 主体 的 社区 划 
分 结果 ,按照 这 种 聚合 的 方法 ,通常 是 会 得 到 一 棵 层次 的 树 状 图 ,在 这 棵 层次 树 上 
选择 合适 的 位 置 切割 树 ,就 可 得 到 不 一 样 的 社区 划分 。 有 的 学 者 在 文中 给 出 了 分 
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区 密度 的 判断 标准 ,分 区 密度 值 可 用 来 确定 在 树 状 图 中 进行 切割 的 最 佳 位 置 。 

边 划分 的 社区 发 现 方法 有 两 个 优势 ,一 个 是 从 结 点 到 边 的 角度 转变 ,这 个 转变 
可 避免 在 以 结 点 为 研究 目标 的 社区 发 现 算法 中 , 重 友 结 点 处 理 的 困扰 问题 ; 另 一 
个 是 算法 的 复 用 ,由 于 将 原始 网 络 进行 转化 后 ,对 于 边 就 可 看 作 是 硬 分 类 问题 , 那 
么 传统 的 基于 结 点 的 一 些 经 典 社区 发 现 算法 就 可 以 复 用 在 以 边 为 研究 目标 的 社区 
发 现 算法 中 。 


3.3 ”本章 小 结 


社会 网 络 在 变革 人 们 生活 方式 的 同时 ,也 构成 了 Web 上 的 复杂 网 络 ,以 每 天 
TB 的 量 级 飞速 地 形成 了 Web 上 不 断 变化 的 巨大 信息 源 ,如 何 利 用 和 发 现 Web 中 
的 有 用 信息 是 企业 界 和 研究 界面 临 的 挑战 。 社 区 是 Web 复杂 网 络 中 表现 出 多 个 
个 体 共 性 的 一 种 普遍 形式 ,社区 发 现 技 术 将 为 个 性 化 服务 信息 挖掘 等 应 用 提供 有 
效 的 研究 基础 ,因此 ,社区 发 现成 为 一 个 非常 活跃 且 快 速 发 展 的 研究 领域 。 本 章 沿 
着 社区 发 现 技术 的 发 展 历程 ,详细 展开 了 非 重 全 社区 和 重 全 社区 两 大 分 支 的 发 现 
算法 分 析 和 对 比 ,在 非 重 一 社 区 发 现 算法 中 ,从 最 初 的 图 分 割 方 法 、 层 次 聚 类 法 ,分 
裂 算法 等 基本 算法 ,逐渐 发 展 和 改进 ,形成 了 包括 谱 方 法 .快速 GN 算法 、 基 于 模块 
度 优化 和 基于 动力 学 等 算法 。 在 重 琶 社区 发 现 算法 中 ,分 别 介 绍 了 派系 过 滤 算 法 、 
基于 重合 模块 度 算法 .基于 局 部 扩展 的 算法 和 基于 边 划分 等 重 释 社 区 发 现 算法 。 


1. 简 述 经 典 的 GN 分 裂 算法 的 思想 。 试 设计 编写 相应 的 程序 实现 GN 算法 ， 
并 描述 GN 算法 的 优 劣 。 


2. 试 描述 2004 年 由 Newman 和 Girvan 提出 的 模块 度 评 价 函 数 的 概念 。 

3. 理解 FastNewman 算法 。 试 设计 编写 相应 的 程序 实现 FastNewman 算法 ， 
并 与 GN 算法 进行 相应 对 比 。 

4. 简 述 重 琶 社区 发 现 算法 的 目的 ,并 选择 一 种 重 又 社区 发 现 算法 描述 其 
5. 试 从 CPM 算法 .CONGA 算法 、LFM 算法 和 LC 算法 中 任 选 一 种 算法 , 设 
计 并 编写 相应 的 程序 实现 其 算法 思想 ,并 描述 该 算法 的 优 劣 。 

6. 查找 相关 资料 ,整理 社区 发 现 算法 的 最 新 进展 。 


基于 内 容 的 社区 聚 类 方法 


本 章 学 习 目标 
。 理解 主题 模型 和 LDA 模型 的 思想 和 方法 
。 了 解 主题 模 型 在 社区 发 现 中 的 应 用 方法 


除了 前 述 基于 网 络 结构 的 社区 发 现 方法 ,基于 内 容 的 社区 聚 类 方法 也 是 目前 
社会 计算 领域 中 的 研究 重点 。 这 里 的 内 容 指 的 就 是 社区 内 结 点 的 文本 内 容 。 通 过 
计算 结 点 文本 内 容 的 相似 性 ,能 够 将 文本 内 容 相似 的 结 点 划分 为 兴趣 社区 ,这 也 就 
是 文本 聚 类 法 。 

文本 相似 性 的 度量 有 很 多 方法 ,主题 模型 (Topic Model) 是 文本 聚 类 法 中 最 
典型 的 算法 。 主 题 模型 就 是 对 文字 中 隐 含 的 主题 进行 建 模 的 方法 。 在 现实 生活 
中 ,总 是 希望 能 用 一 种 较为 简单 的 方法 来 代表 大 规模 数据 集 的 特征 信息 。 主 题 
模型 是 一 个 能 对 大 规模 文本 进行 有 效 分析 的 模型 , 它 不 仅 能 够 在 海量 互联 网 数 
据 中 寻找 出 文字 间 的 语义 主题 ,并 且 克 服 了 传统 信息 检索 中 文档 相似 度 计算 方 
法 的 缺点 。 

在 主题 模型 中 ,每 个 主题 可 以 被 表示 成 一 个 多 项 式 的 分 布 。 如 果 把 文本 定义 
在 文档 的 级 别 ,主题 模型 就 是 抽取 出 文档 中 的 语义 相关 的 主题 集合 ,然后 将 文档 变 
换 到 主题 空间 。 它 能 够 发 现 文档 - 词 项 之 间 所 蕴涵 的 潜在 语义 关系 ( 即 主题 ), 将 文 
档 看 成 一 组 主题 的 混合 分 布 ,而 主题 又 是 词语 的 概率 分 布 ,从 而 将 高 维度 的 “ 文 
档 一 词 项 ”空间 映射 到 低 维度 的 “文档 一 主题 一 词 项 ”空间 ,并 捕获 各 个 文档 之 间 洪 
在 的 语义 关系 ,有 效 提高 了 文本 信息 处 理 的 性 能 。 
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4.1 主题 模型 


4.1.1 主题 模型 简介 


在 传统 信息 检索 领域 里 ,已 经 有 了 很 多 衡量 文档 相似 性 的 方法 ,如 使 用 向 量 空 
间 模 型 (Vector Space Model,VSM) 。 传 统 判断 两 个 文档 相似 性 往往 是 通过 比较 
两 个 文档 共同 出 现 的 单词 ,如 经 典 的 TF-IDF(Term Frequency-Inverse Document 
Frequency) 算 法 。 而 这 些 方法 都 是 基于 这 样 的 一 个 假设 : 文档 之 间 重 复 的 词 项 越 
多 , 则 这 两 个 文档 相似 的 可 能 性 更 大 。 事 实 上 ,文档 的 相关 程度 并 不 仅仅 取决 于 文 
档 本 身 包含 的 词 项 的 重复 。 有 很 多 时 候 ,这 种 相关 程度 其 实 是 取决 于 文档 背后 的 
语义 关联 。 经 常会 出 现 这 种 情况 ,两 个 文档 中 共同 出 现 的 词 项 很 少 或 是 没有 ,但 这 
两 个 文档 却 是 相关 的 。 例 如 有 这 样 的 两 个 句子 : 

“我 想 换个 新 手机 。” 

“不 知道 苹果 什么 时 候 会 降价 。” 

虽然 这 两 个 句子 中 没有 共同 出 现 的 词 项 ,但 当 这 两 个 句子 出 现在 上 下 文 时 ,可 
以 很 容易 看 出 这 两 个 句子 是 相关 的 。 然 而 要 是 用 传统 的 方法 判断 这 两 个 句子 肯定 
是 不 相关 的 ,这 就 突显 了 语义 关联 在 判断 文档 相关 性 中 的 重要 性 。 如 何 将 文档 的 
语义 关联 考虑 到 划分 中 ? 主题 模型 实现 了 这 样 的 功能 。 主 题 模型 就 是 对 文字 中 隐 
含 主题 的 一 种 建 模 方法 。 

那么 ,首先 确定 什么 是 主题 ? 主题 是 语 料 集合 上 语义 的 高 度 抽象 和 压缩 表示 。 
通俗 来 说 ,主题 就 是 一 个 概念 .一 个 方面 。 它 表现 为 一 系列 相关 的 词 项 。 进 一 步 理 
解 ,主题 就 是 词汇 表 上 词 项 的 条 件 概率 分 布 。 词 项 的 条 件 概 率 越 大 ,与 主题 关系 越 
密切 ,反之 则 越 疏 远 。 在 主题 模型 中 ,每 个 主题 被 表示 成 一 个 多 项 式 分 布 。 每 个 主 
题 相 对 文档 本 身 表 达 的 内 容 更 加 抽象 与 压缩 。 

一 个 主题 中 包含 了 若干 出 现 概 率 较 高 的 词 项 。 这 些 词 项 和 这 个 主题 有 很 强 的 
相关 性 ,或 者 说 , 正 是 这 些 词 项 共同 定义 了 这 个 主题 。 对 于 一 段 话 来 说 ,有 些 词 项 
可 能 属于 这 个 主题 ,有 些 可 能 来 自 另 一 个 主题 ,一 段 文本 往往 是 若干 个 主题 的 杂 
合体 。 

对 图 4. 1 中 的 这 有 段 话 , 可 以 划分 为 如 表 4. 1 所 示 的 主题 。 


网 易 做 了 易 信 ， 阿里 力 推 来 往 , 微 信 已经 风光 无 二 , 可 还 是 有 人 不 服 ， 
不 甘心 ， 想 要 动 一 动 腾讯 在 移动 社交 上 的 霸主 地 位 。 移 动 IM 的 战争 
早 在 微 信 打 败 米 聊 之 时 就 已 经 结束 了 ， 而且 ,很 难 翻盘 ， 因 为 输 给 微 
信 ， 实 乃 非 战 之 罪 。 


图 4.1 语 料 示 例 
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表 4.1 主题 示例 
网 易 阿里 腾讯 战争 
易 信 来 往 微 信 霸主 地 位 
移动 社交 移动 社交 QQ 打响 
移动 社交 


可 以 看 出 ,这 段 文字 主要 讲述 的 是 其 他 互联 网 企业 与 腾讯 微 信之 间 移 动 IM 
的 竞争 。 在 这 里 ,还 出 现 了 网 易 和 阿里 这 两 个 主题 ,但 它们 并 不 是 主要 内 容 。 值 
得 注意 的 是 , “移动 社交 ”这 样 的 词 , 既 可 以 出 现在 腾讯 主题 ,也 可 以 出 现在 网 易 
主题 或 是 阿里 主题 。 当 它 出 现在 具体 文字 中 时 ,这 三 个 主题 都 得 到 了 一 定 程度 
的 体现 。 

再 看 上 面 的 例子 ,有 了 主题 的 概念 后 ,“ 苹 果 ” 这 个 词 既 属于 “苹果 公司 ”这 个 主 
题 ,又 属于 “水 果 ” 的 主题 ,如 果 没 有 语 境 ,并 不 能 分 析出 这 个 句子 究 竞 属于 哪个 主 
题 。 但 是 , 当 联 系 上 第 一 个 句子 时 ,“ 蕴 果 公 司 ” 这 个 主题 就 和 “手机 ”这 个 主题 匹配 
上 了 ,因此 可 以 认为 它们 是 相关 的 。 


4.1.2 主题 模型 内 容 


通过 划分 为 词 项 可 以 把 文档 表示 在 词 项 空间 上 。 上 面 已 经 提 到 ,主题 是 词 项 
的 概率 分 布 。 若 指定 主题 模型 的 主题 为 kK 个 ,通过 主题 模型 的 训练 ,最 终 得 到 K 
个 主题 ,就 能 够 将 词 项 空间 中 的 文档 变换 到 主题 空间 。 主 题 模型 是 如 何 获得 主题 
并 表示 文档 的 , 接 下 来 对 其 主要 内 容 进 行 简要 陈述 。 

1. 两 个 输入 
主题 模型 处 理 的 主体 就 是 文档 ,所 以 将 文档 集合 作为 主题 模型 的 一 个 输入 。 
文档 集合 可 以 表示 为 词 项 一 文档 矩阵 的 形式 ,和 矩阵 的 内 容 是 每 个 词 项 在 每 个 文档 
中 出 现 的 次 数 。 表 4. 2 是 一 个 词 项 一 文档 和 矩阵 的 示例 。 

表 4.2 词 项 一 文档 矩阵 


di az ds ds ds 
system 2 0 0 0 
management 0 L 0 0 | 
information 0 1 | 1 1 
technology i 1 0 0 1 
intelligence 1 0 0 0 1 
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从 表 4. 2 中 的 矩阵 可 以 直观 地 看 出 ,一 共有 五 个 文档 ,每 个 文档 又 对 应 五 个 词 
项 。 文档 di 中 system, technology, intelligence 三 个 词 项 各 出 现 一 次 。 词 system 
在 文档 心中 出 现 一 次 ,在 文档 d; 中 出 现 两 次 。 同 一 个 词 项 可 以 在 一 个 文档 中 出 现 


多 次 。 


除了 文档 集合 ,主题 个 数 K 也 是 一 个 重要 输入 。 普 遍 认为 ,主题 个 数 的 设 定 
是 一 个 非常 困难 的 问题 。 目 前 的 方法 大 概 有 以 下 两 种 。 

(1) 根据 经 验 进行 设 定 。 通 过 反复 调试 或 者 枚 举 主题 的 数目 来 观察 实验 效果 
的 好 坏 。 并 引入 一 定 的 评价 指标 进行 评估 。 评 价 指标 有 基于 困惑 度 (Perplexity)、 


语 料 似 然 值 .分 类 正确 率 等 。 


(2) 使 用 非 参 数 贝 叶 斯 的 方法 。 该 方法 先 假设 主题 个 数 为 无 穷 多 个 ,实际 主 


题 个 数 随 着 语 料 规模 而 变化 ,最 终 能 够 学 习 出 主题 


的 数目 。 这 个 方法 能 在 一 定 程 


度 上 解决 主题 模型 中 自动 确定 主题 数目 的 问题 ,但 同时 也 提高 了 运行 的 复杂 度 。 


2. 可 交换 假设 
主题 模型 中 一 个 重要 的 假设 是 可 交换 假设 , 即 
序 而 不 影响 模型 的 训练 结果 。 另 外 ,文档 的 次 序 也 
换 也 就 是 与 顺序 无 关 , 和 条 件 独立 同 分 布 等 价 。 

3. 表示 方法 


图 4.2 是 对 LDA 的 图 模型 表示 。 


主题 模型 的 表示 方法 有 两 种 ,包括 图 模型 和 生 
Dirichlet Allocation ) 为 例 ,使 用 两 种 方法 进行 表示 。 


一 篇 文档 内 的 单词 可 以 交换 次 


不 影响 模型 的 训练 结果 。 可 交 


成 过 程 。 以 LDA 模型 (Latent 
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图 4.2 LDA 的 图 模型 表示 


图 4.2 中 圆 形 代表 结 点 ,分别 有 观测 值 、 隐 含 随机 变量 或 参数 。 方 框 右 下 角 的 
字母 MCN) 表 示 方 框 中 的 内 容重 复 M(N) 次 。 箭 头 代表 依赖 关系 。 其 中 0 是 一 个 
主题 向 量 , 向 量 的 每 一 列表 示 每 个 主题 在 某 文档 出 现 的 概率 ,文档 个 数 为 M 个 。 
N 表示 文档 长 度 。w 是 单词 ,= 则 是 w 所 属 的 主题 标号 。a 和 有 是 Dirichlet 分 布 


的 参数 。 


除了 图 模型 表示 方法 之 外 ,还 有 一 种 方法 来 描述 主题 模型 , 那 就 是 生成 过 程 。 
LDA 模型 的 生成 过 程 如 图 4. 3 所 示 。 生 成 过 程 表示 的 是 一 篇 文档 产生 的 过 程 ,车 


重复 M 次 则 能 够 生成 整个 语 料 集 。 
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选择 参数 9 一 Dir(a) 
对 单词 rw 
选择 题目 x,~~p(z|) 
选择 单词 w, 一 p(w|z) 


图 4.3 LDA 模型 的 生成 过 程 表 示 


生成 过 程 可 以 理解 为 ,认为 一 篇 文档 的 每 个 词 都 是 通过 以 一 定 的 概率 选择 了 
某 个 主题 ,并 从 这 个 主题 中 以 一 定 的 概率 选择 每 个 词 这 样 一 个 过 程 得 到 的 。 例 如 ， 
假设 一 个 语料库 中 有 电影 .音乐 ,文学 这 三 个 主题 。 现 在 给 定 一 篇 介绍 电影 内 容 的 
文档 ,文档 中 可 能 同时 包含 了 电影 和 音乐 这 两 个 主题 。 音 乐 这 个 主题 中 有 一 系列 
的 词 ,这 些 词 都 与 音乐 有 关 ,并且 每 个 词 分 别 有 一 个 概率 ,代表 该 词 在 主题 为 音乐 
的 文档 中 可 能 出 现 的 频率 。 同 样 地 ,在 电影 主题 中 也 有 这 样 的 词 和 概率 。 若 想 重 
新 生成 一 篇 关于 电影 内 容 的 文档 , 则 首先 随机 选择 某 一 主题 ,这 时 选择 电影 和 音乐 
这 两 个 主题 的 概率 更 高 ; 然后 选择 单词 ,也 是 选择 到 和 两 个 主题 相关 的 词 的 概率 
更 高 。 通 过 不 断 重 复 这 个 过 程 , 最 终 组 成 了 一 篇 文档 。 当 然 这 样 得 到 的 文档 中 的 
词 是 无 序 的 。 

4. 参数 估计 

各 主题 下 的 词 项 概率 分 布 和 各 文档 的 主题 概率 分 布 是 主题 模型 中 最 重要 的 两 
组 参数 。 参 数 估计 也 就 是 在 已 知 文档 集 的 基础 上 ,通过 参数 估计 得 到 参数 值 的 一 
个 过 程 。 亦 即 整个 训练 过 程 得 到 的 输出 结果 。 

5. 推断 新 样本 

在 完成 对 主题 模型 的 训练 后 ,就 能 够 使 用 该 主题 模型 推断 新 的 样本 。 将 表达 
在 词 项 空间 上 的 文档 转换 到 主题 空间 中 ,得 到 一 个 以 主题 为 坐标 的 低 维 表达 。 也 
就 是 得 到 了 文档 的 主题 概率 分 布 。 
主题 模型 具有 灵活 的 扩展 性 ,因此 一 经 推出 ,就 获得 了 广泛 应 用 ,几乎 覆盖 了 
文本 挖掘 和 信息 处 理 的 所 有 领域 。 下 面 就 对 主题 模型 的 几 个 典型 类 型 进行 介绍 。 


4.2 LDA 模型 


早期 人 们 处 理 文本 、 对 文本 进行 挖掘 所 使 用 的 代表 方法 有 潜在 语义 分 析 
(Latent Semantic Analysis,LSA)。 潜 在 语义 分 析 打 破 了 人 们 以 往 认为 文本 是 表 
示 在 词典 空间 上 的 思维 定 势 。 它 引入 了 语义 维度 ,使 得 文本 表示 从 文档 一 词 变 成 
了 文档 一 语义 一 词 。 然 后 通过 线性 代数 的 方法 提取 出 语义 维度 并 实现 降 维 。 在 此 
基础 上 ,Hofmann 提出 了 概率 潜在 语义 索引 (probabilistic LSI,pLSI) 。 而 Blei 等 
人 在 pLSI 基础 上 进行 扩展 ,于 2003 年 提出 了 LDA 模型 。LDA 模型 是 目前 主题 
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模型 中 应 用 最 为 广泛 的 一 种 。 


4.2.1 LDA 模型 简介 


pLSI 寻找 一 个 从 词 项 空间 到 隐 性 语义 ( 即 主题 ) 空 间 的 变换 ,但 pLSI 是 一 
个 概率 生成 模型 ,而且 选择 了 不 同 的 最 优化 目标 函数 。LDA 模型 是 在 pLSI 的 
基础 上 ,用 一 个 服从 Dirichlet 分 布 的 K 维 隐 含 随机 变量 表示 文档 的 主题 概率 
分 布 , 模 拟 文档 的 产生 过 程 。LDA 模型 其 实 是 一 种 分 层 贝 叶 斯 框架 下 的 概率 
模型 。 

LDA 是 一 种 非 监督 学 习 技术 ,可 以 用 来 识别 大 规模 文档 集 或 语料库 中 潜藏 的 
主题 信息 。 通 过 将 文档 表示 为 一 个 主题 向 量 而 不 是 词 项 向 量 来 达到 特征 降 维 的 目 
的 。 它 采用 的 是 词 袋 (Bag of Words) 的 方法 。 词 袋 方法 具体 来 说 就 是 将 每 篇 文档 
看 作 一 个 词 频 向 量 ,以 此 将 文本 信息 转化 为 数字 信息 。 如 果 直 接 基 于 词 袋 在 文档 
空间 对 文档 进行 表示 ,会 导致 维度 较 大 。 若 指定 主题 个 数 为 玉 个 ,通过 训练 和 推 
理 , 得 到 K 个 主题 , 则 可 以 将 文档 变换 到 主题 空间 ,从 而 实现 降 维 。 另 外 , 词 袋 方 
法 忽视 了 词 与 词 之 间 的 顺序 ,将 问题 简单 化 ,同时 也 为 模型 的 改进 提供 了 契机 。 
LDA 的 基本 思想 与 大 多 数 主题 模型 思想 保持 一 致 : 将 文档 表示 为 潜在 主题 的 随机 
混合 ,其 中 每 个 主题 由 单词 的 一 个 概率 分 布 来 描述 。 


4.2.2 LDA 模型 内 容 


传统 的 文档 表示 方法 一 般 将 文档 表示 为 特征 向 量 。 通 过 使 用 LDA ,文档 矩阵 
能 够 产生 两 种 不 同 的 矩阵 : 文档 一 主题 矩阵 和 主题 一 词 项 矩阵 ， 
Aml 2 Gm 


i 
其 中 d 表示 文档 ,zw 表示 词 ,t 表示 主题 。 

由 前 已 知 LDA 模型 的 框架 。LDA 模型 可 以 随机 生成 一 篇 由 N 个 主题 组 成 
的 文档 。 可 以 使 用 图 4. 4 的 方法 来 生成 文档 。 具 体 描述 为 : 

(1) 选择 该 文档 的 长 度 为 N。 

(2) 从 具有 参数 a 的 Dirichlet 分 布 中 选择 一 个 多 项 式 分 布 0,9 表示 每 个 主题 
发 生 的 概率 。 

(3) 根据 给 定 的 0 确定 主题 =。 

(4) 根据 给 定 的 主题 = 的 概率 分 布 选择 单词 rw 。 

(5) 重复 (2) 和 (3)N 次 ,直到 生成 全 部 N 个 词 。 


Qml ”drm 
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对 每 篇 文档 d 

选择 参数 6 一 Dir(a) 

对 单词 mw 

选择 题目 xz, 一 p(z|19) 
选择 单词 ww, 一 p(w|z) 
对 每 一 对 文档 dd 

画 一 个 双向 连接 显示 函数 
yld,d~Y(* |z, ,2) 


图 4.4 LDA 文档 生成 过 程 


其 中 <, 表示 选择 的 主题 ,p(z10) 表 示 给 定 0 时 主题 < 的 概率 分 布 ,具体 即 为 0 
的 值 。0 服从 Dirichlet 分 布 ,该 分 布 函数 如 式 (4- 1 所 示 ， 


(ao ) _ 
Dir(y | a) = Tea) ra ip (4-1) 


其 中 ,0 过 pj 过 1， 2 = 1; a = = Pa, 是 伽 马 函数 。 


这 种 方法 首先 选 定 一 个 主题 向 量 0， 确定 每 个 主题 被 选择 的 概率 。 然 后 从 主题 
分 布 向 量 0 中 选择 一 个 主题 = ,按照 主题 > 的 单词 概率 分 布 生成 一 个 单词 。 根 据 
图 4. 5 所 示 进 行 循环 生成 单词 。 由 此 可 得 LDA 的 联合 概率 如 式 (4-2) 所 示 : 


亡 (0,=，zu le 四 = p601 ol pce | OD plw, | 2, ,8) (4-2) 


上 式 中 ,N 表示 文档 长 度 ; 0 下放 的 是 要 市 zu 表示 文档 的 第 7” 个 

单词 ; x, 表 示 w, 所 属 的 主题 。 这 个 函数 使 用 a 和 有 作为 参数 ,通过 对 目标 函数 进 

行 最 大 化 来 估计 a 和 有 的 值 。 de ,它们 无 法 直接 计算 出 来 ,因此 
通常 考虑 词汇 对 于 主题 的 后 验 概率 。 

按照 图 4. 5 所 示 的 关系 来 理解 ,可 以 看 出 ,a 和 8B 表示 语 料 级 别 的 参数 , 即 每 个 

文档 都 一 样 ,因此 生成 过 程 只 采样 一 次 ; 9 是 文档 级 别 的 变量 ,每 个 文档 都 对 应 一 
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图 4.5 LDA 图 模型 的 具体 阐释 
(资料 来 源 : Blei, Ng, Jordan. Latent Dirichlet Allocation. Journal of Machine Learning 
Research, 2003, 3: 993-1022. ) 
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个 0, 每 个 文档 产生 各 个 主题 的 概率 并 不 相同 ,因此 生成 过 程 中 每 个 文档 采样 一 次 ; 
>z 和 w 都 是 单词 级 别 的 变量 ,= 由 0 生成 ,w 由 > 和 8 共同 生成 ,一 个 单词 zw 对 应 一 
个 主题 >。 也 就 是 说 ,LDA 模型 是 从 给 定 的 输入 语 料 集中 学 习 并 训练 两 个 参数 a 
和 有 ,训练 得 到 这 两 个 参数 后 就 确定 了 模型 ,由 此 可 以 生成 文档 。 


4.2.3 LDA 模型 统计 推断 


目前 用 来 估计 主题 模型 参数 的 算法 有 很 多 ,如 EM(Expectation-Maximization) 算 
法 ,近似 推断 方法 的 变种 EM, 期 望 增值 ,Gibbs 采样 等 。 

在 Dirichlet 先 验 知识 和 允许 从 后 验 分 布 的 局 部 最 大 化 中 进行 联合 估计 的 前 提 
下 ,Gibbs 采样 方法 最 为 简便 和 有 效 。Gibbs 采样 方法 提供 了 一 个 简单 地 在 
Dirichlet 优先 下 获得 参数 估计 的 方法 ,并 且 人 允许 这 些 来 自 于 很 多 后 验 分 布 的 局 部 
最 大 值 的 估计 进行 组 合 。Gibbs 采样 算法 可 认为 从 一 个 已 知 的 主题 模型 中 生成 人 
造 的 文档 数据 ,同时 用 这 个 算法 来 检查 它 是 否 可 以 推断 原始 的 生成 结构 。 它 直接 
去 估计 x 的 后 验 分 布 , 即 每 个 词 项 到 主题 的 分 配 ,而 不 是 直接 估计 主题 一 词 项 的 分 
布 信息 和 每 篇 文章 的 主题 分 布 信息 0。 


4.3 LDA 模型 的 变形 


LDA 模型 在 推出 后 得 到 了 各 种 各 样 的 应 用 ,大 批 的 学 者 对 LDA 模型 进行 了 
各 种 变形 和 拓展 。 目 前 与 主题 模型 相关 的 工作 有 很 大 一 部 分 是 对 LDA 模型 进行 
修改 ,或 是 将 LDA 模型 作为 整个 概率 模型 的 一 个 部 件 。 针 对 LDA 扩展 的 研究 工 
作 非 常 多 ,难以 对 其 进行 全 面 介绍 。 这 里 只 对 经 常 被 用 于 从 社会 计算 角度 扩展 的 
模型 进行 代表 性 介绍 。 


4.3.1 AT 模型 


Syeyvers 等 (2004) 提 出 了 AT(Author-Topic) 模 型 用 于 发 现 用 户 文档 、 主 题 
和 关键 词 之 间 的 关系 。 认 为 主题 是 多 个 关键 词 的 概率 分 布 ,用 户 也 可 按照 某 种 概 
率 分 布 对 多 个 主题 感 兴趣 。 

AT 模型 将 文档 作者 引入 到 对 文档 的 主题 划分 中 , 即 认为 每 个 作者 有 一 个 主 
题 概率 分 布 。 例 如 某 个 作者 关注 的 领域 主要 是 数据 挖掘 领域 ,而 另 一 个 作者 主要 
关注 点 是 人 工 智 能 领域 。 一 篇 文档 往往 有 多 个 作者 , 它 的 主题 分 布 可 以 是 几 个 作 
者 的 主题 分 布 的 一 种 组 合 。 因 此 AT 模型 可 以 获得 两 种 主题 : 作者 的 兴趣 信息 和 
文档 数据 的 内 容 信息 。 
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此 时 文档 生成 与 LDA 模型 有 了 一 些 不 同 ,过 程 是 这 样 的 : 随机 选择 一 个 作 
者 ,根据 该 作者 的 主题 概率 分 布 生成 一 个 词 ,重复 该 过 程 直到 生成 整个 文档 。 具 体 
可 以 由 图 4.6(c) 中 的 部 分 看 出 。 主 题 模型 对 应 于 每 个 文档 有 单一 作者 的 情况 , 作 
者 模式 对 应 于 每 个 作者 有 单一 主题 的 情况 。 通 过 参数 ,能 够 获得 关于 作者 典型 写 
作 的 主题 和 从 这 些 主 题 出 发 的 每 一 个 文档 内 容 的 表现 方法 。 
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图 4.6 模型 展示 
(资料 来 源 : Rosen-Zvi，Griffiths，Steyvers。The Author-Topic Model for Authors and Documents. 
Proc 20th Conf Uncertainty in Artificial Intelligence，AUAI Press，2004: 487-494. ) 


4.3.2 ART 模型 


McCallum 等 (2007) 基 于 发 送 一 接收 关系 提出 了 ART (Author-Recipient- 
Topic) 模 型 ,用 于 聚 类 具有 相似 兴趣 的 用 户 。 这 个 模型 针对 的 是 具有 方向 性 的 文 
档 , 如 电子 邮件 。 它 除了 可 以 发 现 文档 的 内 容 信息 之 外 ,还 可 以 挖掘 发 送 者 和 接收 
者 的 关系 。 

将 发 送 者 和 接收 者 看 成 是 一 篇 文档 的 主题 概率 分 布 的 决定 因素 。 通 过 积分 或 
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求 和 可 以 分 别 得 到 同一 个 人 在 发 送 者 和 接受 者 这 两 个 角色 时 的 主题 概率 分 布 。 然 
后 ,通过 使 用 这 些 主 题 概率 分 布 进行 聚 类 ,判定 哪些 人 具有 相似 的 社会 角色 。 例 
如 , 若 有 些 人 作为 接收 者 时 总 是 收 到 诸如 要 求 复 印 ,旅行 预约 或 是 安排 会 议 室 等 信 
息 , 那 么 公认 为 他 们 具有 “行政 助理 ?这 样 的 社会 角色 ,即使 这 些 人 所 处 的 社会 关系 
完全 不 同 。 

ART 模型 的 生成 过 程 是 这 样 的 : 随机 选择 一 个 用 户 , 随 机 确定 用 户 的 身份 是 
发 送 者 还 是 接收 者 ,根据 用 户 在 这 个 身份 下 的 主题 概率 分 布 生 成 一 个 词 ,重复 该 过 
程 直到 生成 整个 文档 。 具 体 过 程 可 以 由 图 4.7(d) 中 的 部 分 看 出 。 
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图 4.7 ART 模型 展示 
(资料 来 源 : McCallum,，Wang,，Corrada-Emmanuel. Topic and Role Discovery in Social 
Networks With Experiments on Enron and Academic Email. J Artificial Intelligence Research, 


2007, 30: 249-272. ) 
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4.3.3 CART 模型 


在 ART 模型 的 基础 上 ,Pathak 等 (2008) 提 出 了 CART(Community-Author- 
Recipient-Topic) 模 型 。 该 模型 适用 于 提取 电子 邮件 网 络 中 隐 含 的 子 社区 ,但 仅 适 
用 于 有 一 个 发 送 者 和 多 个 接收 者 的 有 向 网 络 , 因 此 不 适用 于 研究 如 BBS 论坛 或 是 
这 种 存在 用 户 双向 交流 的 社会 网 络 中 的 社区 发 现 。 


4.4 主题 模型 在 社区 发 现 中 的 应 用 


4.4.1 简介 


传统 的 基于 结构 的 社会 网 络 分 析 方 法 中 ,大 多 数 研究 通过 分 析 用 户 之 间 链 接 
行为 以 发 现 重 要 结 点 和 社区 演化 特征 等 ,但 是 这 样 的 效果 并 不 理想 。 研 究 兴趣 或 
领域 的 相近 关系 , 才 是 反映 社区 性 质 的 最 重要 的 关系 。 随 着 研究 的 深入 ,研究 者 们 
开始 关注 社会 网 络 信息 中 更 丰富 的 内 容 信息 。 信 息 内 容 的 加 入 有 助 于 为 社会 网 络 
潜在 问题 的 研究 创造 更 多 条 件 。 

在 传统 的 社区 结构 分 析 方 法 中 ,往往 忽视 了 结 点 内 容 , 没 有 考虑 从 内 容 层面 形 
成 的 链接 关系 或 是 由 于 线 下 活动 而 形成 的 潜在 的 链接 关系 。 区 别 于 传统 的 社区 发 
现 方法 ,基于 主题 模型 的 社区 发 现 方法 ,可 以 通过 引入 主题 模型 获得 主题 信息 , 构 
建 关联 网 络 , 在 此 基础 上 进行 的 社区 发 现 研究 ,更 加 符合 现实 的 需求 并 赋予 社区 一 
定 的 意义 。 


4.4.2 网 络 结构 挖掘 


网 络 结构 是 文本 的 一 个 附加 信息 ,存在 于 各 种 类 型 的 数据 集合 中 : 如 微 博 中 
的 好 友 关 系 、 网 页 中 的 链接 关系 等 。 这 些 链 接 可 以 更 好 地 帮助 分 析 文 档 的 语义 含 
义 ,而 文档 的 语义 含义 也 可 以 更 好 地 帮助 分 析 网 络 结构 的 链接 关系 。 对 于 一 些 数 
据 类 型 来 说 ,例如 社会 关系 的 网 络 数据 ,链接 关系 本 身 就 是 一 种 数据 类 型 ,处 于 和 
文本 同样 重要 的 地 位 。 接 下 来 介绍 一 些 常见 的 将 主题 模型 融入 网 络 结构 信息 的 
方法 。 

1. 利用 相似 性 

首先 介绍 RTM(Relational Topic Model) 模 型 .与 标准 的 LDA 模型 相 比 , 它 多 
了 第 二 个 步骤 ,试图 从 主题 分 布 的 相似 性 来 考虑 进一步 生成 附加 的 链接 结构 。 这 
是 包含 了 一 个 隐 含 的 假设 : 如 果 两 个 文档 之 间 有 着 链接 关系 ,那么 它们 之 间 的 主 
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题 分 布 应 该 更 为 相似 。 

在 给 定 文档 的 主题 分 布 后 ,使 用 链接 生成 函数 生成 链接 关系 。 除 此 之 外 ,还 可 
以 在 最 后 的 链接 关系 形成 函数 中 引入 社会 关系 。 也 就 是 说 ,两 个 结 点 形成 链接 关 
系 是 由 于 两 个 因素 : (1) 主题 分 布 的 相似 性 ; (2) 社 区 从 属 关系 的 相似 性 。 另 外 一 
种 方法 是 ,考虑 每 次 链接 事件 的 形成 过 程 : 首先 为 整个 链接 事件 选择 一 个 主题 标 
签 ; 然后 基于 该 主题 为 参与 到 该 事件 的 两 个 结 点 进行 社区 标签 采样 ; 最 后 基于 这 
两 个 社区 标签 决定 一 个 链接 事件 形成 的 概率 。 

2. 利用 规则 化 方法 

规则 化 的 基本 思想 是 在 模型 的 最 优化 函数 上 添加 一 些 限制 ,通过 这 些 限制 使 
得 模型 避免 出 现 过 度 拟 合 等 病态 学 习 问 题 。 对 于 大 多 数 主题 模型 ,如 标准 的 LDA 
和 pLSA 的 求解 过 程 都 是 一 个 最 优化 的 过 程 ,目标 函数 就 是 使 得 该 模型 在 语 料 集 
合 上 的 似 然 最 大 。 在 主题 模型 中 可 以 加 入 网 络 规则 化 因子 。 基 本 思想 与 上 述 相 
同 : 如 果 两 个 结 点 存在 链接 关系 ,那么 它们 存在 相似 性 。 例 如 ,如 果 两 个 博 主 转发 
过 同一 条 微 博 ,那么 他 们 的 主题 兴趣 分 布 应 该 比较 相似 。 

3. 隐 式 聚 类 

上 述 方 法 都 是 显 式 地 利用 网 络 结构 特征 进行 聚 类 形成 网 络 子 结构 的 方法 。 还 
有 一 种 方法 是 不 显 式 地 对 链接 进行 建 模 。ATM 就 可 以 看 成 一 种 隐 式 聚 类 的 方法 ， 
亦 即 可 以 按照 主题 的 分 布 对 作者 进行 聚 类 ,例如 将 作者 归 到 他 具有 最 大 数值 的 主 
题 内 的 群体 。 基 于 ATM 提出 过 这 样 的 模型 ,在 主题 模型 中 增加 一 个 子 结构 变量 
(例如 ,在 社会 关系 网 络 中 ,社区 就 是 子 结构 ) ,所 有 结 点 都 和 这 些 子 结构 建立 联系 ， 
形成 一 种 类 似 星 形 的 结构 ,这 与 前 两 种 方法 有 着 本 质 上 的 不 同 。 基 本 思想 是 在 
ATM 的 基础 上 引入 社区 的 变量 ,然后 设 定 每 个 社区 在 作者 集合 上 有 一 个 多 项 式 
分 布 。 


4.5 本 章 小 结 


现实 世界 中 的 许多 复杂 系统 都 在 不 同 程度 上 体现 出 社区 的 特性 ,单纯 从 网 络 
链接 结构 来 划分 社会 网 络 的 社区 结构 是 不 够 的 ,社会 网 络 中 的 内 容 信息 也 是 不 容 
忽视 的 重要 部 分 。 本 章 首先 从 文本 挖掘 的 角度 出 发 ,详细 介绍 了 常用 的 主题 模型 、 
潜在 语义 的 概率 模型 以 及 不 断 改进 的 各 种 信息 融合 的 语义 概率 模型 ; 最 后 ,本 章 
描述 了 如 何在 社区 发 现 技术 中 应 用 主题 模型 ,以 及 主题 模型 融入 网 络 结构 信息 的 
方法 。 
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1. 简 述 主题 模型 的 思想 ,并 根据 你 的 理解 , 试 描述 主题 模型 如 何 应 用 到 社会 
网 络 中 进行 社区 发 现 的 设想 。 

2. 简 述 潜在 语义 模型 的 思想 ,根据 你 的 理解 , 试 描述 潜在 语义 模型 如 何 应 用 
到 社会 网 络 中 进行 社区 发 现 的 设想 。 

3. 查找 相关 资料 ,分析 社 会 网 络 中 内 容 信息 如 何 应 用 到 社区 发 现 技术 中 的 最 
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本 章 学 习 目标 

。 理解 社会 网 络 中 的 信息 传播 的 意义 和 概念 
。 熟悉 和 理解 经 典 的 社会 网 络 的 信息 传播 模型 
。 了 解 社会 网 络 中 的 信息 传播 的 应 用 


5.1 社会 网 络 中 的 信息 传播 


社会 网 络 (Social Networks) 可 追溯 于 哈佛 大 学 的 著名 社会 心理 学 家 米尔 格 伦 
(Stanley Milgram) 在 20 世纪 60 年 代 (Milgram,1967) 所 证 明 的 六 度 分 隔 理论 (Six 
Degrees of Separation) ,也 被 称 为 小 世界 理论 (Easley 和 Kleinberg,2010)。 该 理 
论 通过 一 个 连锁 信件 实验 精妙 地 说 明 : 任何 两 个 陌生 人 之 间 所 间隔 的 人 不 会 超过 
六 个 ,也 就 是 说 ,任何 一 个 陌生 人 最 多 通过 六 个 人 就 能 够 认识 另 一 个 陌生 人 。 随 着 
互联 网 技术 的 迅猛 发 展 和 现代 生活 模式 的 改变 ,各 种 社交 网 络 不 断 涌现 ,这 些 网 络 
为 人 们 提供 了 社会 化 的 网 络 服务 ,如 国外 的 Facebook、Twitter、Flicker, 国 内 的 腾 
讯 QQ, 新 浪 微 博 等 ,这 些 平台 为 用 户 提 供 了 一 个 以 关系 链接 和 信息 生产 和 分 享 为 
主 的 社交 服务 应 用 ,用 户 之 间 通 过 相互 之 间 的 朋友 或 关注 关系 形成 了 类 似 于 现实 
社会 中 的 用 户 关 系 的 虚拟 社会 网 络 世 界 。 在 这 样 的 虚拟 社会 平台 上 ,每 个 用 户 个 
体 通过 生产 和 分 享 各 自 的 信息 内 容 . 使 得 大 量 的 信息 沿 着 用 户 之 间 的 关系 链条 (或 
说 联系 路 径 ) 不 断 地 传播 开 来 。 

社会 网 络 也 可 以 说 是 社会 化 媒体 的 结构 表现 形式 , 表 5. 1 中 总 结 了 社会 化 媒 
体 的 各 种 类 型 (Tang 和 Liu,2012) ,从 中 可 以 发 现 , 人 们 已 经 无 时 无 刻 地 与 社会 化 
媒体 产生 着 联系 ,人 们 的 生活 和 工作 与 社会 化 媒体 有 着 千 丝 万 缕 的 关系 ,同样 ,我 
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们 也 感受 到 社会 化 媒体 所 带 给 人 们 的 生活 方式 的 改变 。 
表 5.1 社会 化 媒体 的 类 型 展示 


博客 Wordpress、Blogspot、LiveJournal、BlogCatalog ,新浪 博 客 .网 易 博 客 
论坛 Yahool! answers、Epinions 大众 点 评 网 

媒体 共享 平台 Flickr、YouTube Justin。 tv、Ustream \Scribd 优酷 

微 博 Twitter、Foursquare Google buzz、 新 浪 微 博 、 腾 讯 微 博 

社会 网 络 Facebook MySpace、LinkedIn .Orkut、 PatientsLikeMe、 人 人 网 

社会 新 闻 Digg\Reddit 

社会 标记 Del. icio. us、StumbleUpon、Diigo、QQ 书签 

维基 百科 Wikipedia、Scholarpedia、AskDrWiki、 百 度 百 科 


社会 网 络 中 的 传播 现象 也 引起 了 研究 者 的 浓厚 兴趣 ,因为 这 种 网 络 现象 与 真 
实 世 界 中 人 们 之 间 的 关系 和 传播 方式 是 相互 对 应 的 ,只 不 过 表现 的 形式 各 不 相同 
而 已 。 社 会 网 络 中 的 传播 包括 新 闻 的 传播 ,观点 和 想法 的 传播 新 产品 的 采用 、 潮 
流 的 引领 等 ,在 生活 中 ,社会 网 络 也 有 许多 应 用 实例 ,如 纽约 电力 网 格 、 朋 友 圈 网 
络 、 斑 马 群 网 络 等 ,而 社会 网 络 的 影响 传播 与 现实 生活 也 是 息息相关 的 , 且 以 一 种 
显著 的 令 人 称奇 的 方式 缩短 着 世界 的 距离 ,跨越 了 国界 ,跨越 了 时 空 。 因 此 ,在 现 
实生 活 中 越 来 越 深 刻 感觉 到 社会 化 媒体 所 带 来 的 力量 , 正 像 网 络 中 描述 的 那样 , 社 
会 化 媒体 的 好 处 在 于 其 能 够 使 得 虚拟 的 世界 和 真实 的 世界 进行 交汇 。 举 一 些 社会 
网 络 传播 所 带 来 效应 的 例子 ,例如 : 2012 年 一 位 妻子 在 网 络 上 发 帖 , 称 她 的 丈夫 肾 
衰竭 ,希望 能 找到 O 型 捐助 者 ,网 络 将 此 信息 不 断 地 传播 开 来 ,一 名 喜剧 演员 了 予以 
响应 并 且 正 好 配 型 吻合 ,移植 手术 非常 成 功 。 再 如 ,2012 年 在 美国 总 统 竞选 中 , 奥 
巴 马 通过 对 新 媒体 潜能 的 充分 发 掘 , 颠 覆 了 传统 的 竞选 方式 ,社会 化 媒体 让 选民 比 
任何 时 候 都 更 充分 地 参与 到 大 选 之 中 ,并 且 参 选 人 也 以 尽 可 能 少 的 成 本 让 尽 可 能 
多 的 公民 相信 他 并 给 他 投票 ,这 就 是 社会 化 媒体 所 发 挥 的 传播 作用 所 产生 的 结果 。 

事实 上 ,信息 是 个 有 广泛 含义 的 概念 , 指 一切 可 以 被 人 类 所 能 接收 到 的 东西 ， 
同时 ,信息 的 意义 也 是 需要 通过 传播 来 体现 。 信 息 传播 是 人 与 人 之 间 交 换 信息 的 
行为 , 它 在 人 们 的 日 常生 活 中 无 处 不 在 ,是 人 们 生活 中 的 重要 组 成 部 分 ,信息 传播 
可 以 促进 人 们 对 世界 及 彼此 的 了 解 。 在 知识 经 济 时 代 , 信 息 传播 显得 尤为 重要 , 掌 
握 信息 优势 已 经 成 为 赢得 竞争 的 重要 前 提 条 件 。 过 去 ,普通 用 户 作为 信息 的 消费 
者 ,从 电视 收音机、 电影 和 报纸 等 传统 媒体 上 观察 世界 。 然 而 随 着 互联 网 的 发 展 
与 Web 2.0 时 代 的 到 来 ,用 户 不 仅仅 是 信息 的 消费 者 ,同时 也 是 信息 的 创造 者 和 
传播 者 。 近 年 来 涌现 出 的 万 维 社会 化 媒体 成 为 信息 传播 的 重要 平台 ,用 户 与 用 户 
之 间 及 用 户 与 媒体 之 间 的 信息 传播 均 表现 出 高 交互 性 的 特征 。 在 紧急 事件 发 生 
时 ,这 些 万 维 社会 化 媒体 比 传统 媒体 反应 更 加 迅速 灵敏、 准确 ,并 且 影 响 广 、 简 单 
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易 用 、 高 效 , 故 研究 信息 传播 的 特征 在 当今 互联 网 时 代 尤 为 重要 。 


5.2 社会 网 络 中 的 信息 传播 模型 


当前 ,对 网 络 中 的 信息 传播 问题 已 进行 了 大 量 的 研究 ,其 中 一 部 分 研究 的 思路 
是 借鉴 病毒 传播 模型 而 改进 研究 的 。 男 一 部 分 是 从 影响 力 传播 的 角度 出 发 而 设计 
相应 的 模型 。 


5.2.1 病毒 传播 模型 


社会 网 络 中 信息 传播 和 病毒 传播 在 某 些 方面 有 一 定 的 相似 之 处 ,因此 了 人 解 病 
毒 传播 模型 对 人 们 解决 信息 传播 问题 有 很 大 的 帮助 。 一 般 情 况 下 ,疾病 (病毒 ) 借 
用 一 种 接触 网 络 来 进行 病毒 的 传播 ,通常 ,网 络 中 的 每 个 结 点 代表 一 个 人 ,两 个 结 
点 之 间 的 边 表示 人 之 间 曾 经 有 过 接触 ,从 而 可 导致 疾病 (病毒 ) 就 有 可 能 从 一 个 人 
( 结 点 ) 传 染 到 另 一 个 人 ( 结 点 ) 。 疾 病 的 传播 过 程 有 时 会 有 突 发 性 ,有 时 会 持续 一 
段 时 间 ,传染 的 力度 也 和 疾病 的 特征 以 及 接触 的 人 群 网 络 有 很 大 关系 。 

经 典 的 病毒 传播 模型 主要 有 SIR 模型 和 SIS 模型 两 种 。 

1. SIR 模型 

著名 的 SIR 病毒 模型 是 由 Kermack 和 McKendrick(1927) 在 研究 黑 死 病 的 传 
播 规律 时 构建 的 。 在 SIR 模型 中 通常 是 将 网 络 中 的 感染 对 象 分 为 三 种 状态 ,它们 
分 别 是 S 状态 ( 称 为 未 感染 状态 ) .I 状态 ( 称 为 传染 状态 ) 、R 状态 ( 称 为 免疫 状态 ) 。 
未 感染 的 个 体 不 会 感染 其 他 的 个 体 ,但 是 有 可 能 被 其 他 的 个 体感 染 。 处 于 传染 状 
态 的 个 体 已 经 被 感染 ,具有 传染 性 ,会 感染 其 他 的 未 感染 个 体 。 而 免疫 个 体 或 者 是 
已 经 被 治愈 并 且 获 得 免疫 力 的 个 体 或 者 是 已 经 死亡 的 个 体 , 它 们 不 会 感染 其 他 个 
体 ,也 不 会 被 其 他 个 体感 染 。 三 种 状态 之 间 的 转换 关系 如 图 5. 1 所 示 。 

未 感染 ”感染 免疫 


图 5.1 SIR 模型 的 状态 变换 关系 图 


SIR 模型 适合 描述 那些 染病 者 在 治愈 后 可 以 获得 终生 免疫 能 力 的 疾病 (如 腮 
腺 炎 ) ,或 者 是 那些 几乎 不 可 避免 走向 死亡 的 疾病 (如 艾滋 病 ) 。 

一 般 来 说 , 若 采用 数学 上 的 公式 来 表达 疾病 传染 与 时 间 之 间 的 关系 ,通常 在 单 
位 时 间 内 ,未 感染 的 个 体 以 平均 速率 8 被 感染 为 传染 状态 ,又 以 平均 速率 9 被 治愈 
成 正常 或 死亡 状态 。 此 模型 的 数学 公式 如 下 所 示 。 
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SD p(s 0) 


dt 
YD = pS (6 0) i 
ED = art) 


其 中 ,在 式 (5-1) 中 SG) .1(t) 和 R(z) 分 别 表 示 z 时 刻 未 感染 个 体 数量 、 感 染 个 体 数 
量 和 被 治愈 的 个 体 数量 ,这 三 个 值 需要 满足 公式 的 约束 条 件 。 
S(D)+IC0)+R()= N 
下 面 , 经 过 简单 假设 和 公式 变换 ,得 到 某 个 传染 病 初期 的 感染 个 体 的 预测 。 设 
5 为 初始 易 感 染 人 数 , 假 定 R, 一 0,2 一 扩 为 病毒 的 传播 速率 ,p 一 一 守 , 那 么 ,由 公 


A 
式 之 间 的 运算 变换 和 变形 ,再 经 过 积分 变换 ,最 终 可 得 到 式 (5-2)。 


S(t1)= Se (5-2) 
并 且 根 据 变换 和 变形 结果 ,以 及 上 式 , 还 可 得 到 式 (5-3)。 
dR(1) _ 二 和 RO 
=|N R(t)— So e(~e )] (5-3) 


这 个 结果 表达 是 在 t 时 刻 感染 个 体 的 数量 ,这 个 数量 只 与 总 量 、 被 治愈 的 人 
数 , 初 始 未 感染 的 人 群 数量 有 关 , 而 这 些 量 的 获取 相对 来 说 是 可 以 获得 的 ,由 此 就 
可 以 估算 出 某 一 个 时 刻 的 感染 个 体 的 数量 ,如 式 (5-4) 所 示 。 

I(1)= N— R(t)— So e(™) (5-4) 

对 于 式 (5-4) 可 以 进行 直接 的 求解 ,并 且 求 解 得 到 的 参数 具有 明确 的 物理 意 
义 ,在 病毒 爆发 初期 就 可 以 进行 预报 ( 徐 腾 龙 ,2013)。 

虽然 SIR 传播 模型 在 许多 网 络 中 得 到 了 扩展 和 研究 ,也 是 当前 研究 的 热点 , 然 
而 却 不 能 准确 地 表达 当前 在 线 社交 网 络 的 传播 现实 ,如 谣言 传播 过 程 中 的 从 众 性 、 
传播 意愿 的 累积 性 等 ,因此 根据 传播 关键 因素 建立 合理 的 传播 模型 是 当前 研究 的 

2. SIS 模型 

与 SIR 模型 不 同 ,SIS 模型 将 感染 对 象 只 分 为 两 种 状态 : S 状态 ( 称 为 未 感染 
状态 ) .I 状态 ( 称 为 传染 状态 )。 处 于 传染 状态 的 个 体 可 以 通过 药物 或 自身 体质 来 
治愈 ,但 是 在 治愈 后 并 未 获得 免疫 能 力 , 而 是 重新 成 为 新 的 未 感染 状态 的 个 体 , 并 
和 甚 他 的 未 感染 个 体 一 样 , 有 一 定 的 可 能 再 次 被 感染 。SIS 模型 的 基本 过 程 是 : 起 
初 接触 网 络 的 状态 是 ,有 一 些 处 于 传染 状态 I 的 结 点 和 剩余 处 于 未 感染 状态 S 的 
结 点 ,之 后 ,处 于 传染 状态 I 的 结 点 u 在 固定 时 间 步 骤 内 以 某 种 概率 传染 给 其 周围 
处 于 未 感染 状态 S 的 结 点 ,在 固定 时 间 步 又 结束 后 , 结 点 u 不 再 具有 传染 性 ,又 一 
次 回 到 未 感染 状态 S。 因 此 ,SIS 模型 是 一 种 在 未 感染 状态 S 和 传染 状态 I 下 的 两 
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种 状态 的 交替 过 程 (Easley 和 Kleinberg,2010)。SIS 模型 很 好 地 描述 了 像 流 感 . 结 
核 病 这 类 无 法 获得 免疫 力 的 传染 病 。 

然而 ,信息 的 传播 和 疾病 的 传播 有 着 明显 的 本 质 上 的 区 别 。 例 如 ,信息 传播 活 
性 随时 间 快 速 衰 减 ,而 疾病 一 般 不 会 ; 信息 传播 中 不 同类 型 边 不 仅 是 传播 力 不 同 ， 
传播 的 模式 也 不 同 , 而 疾病 传播 中 接触 强度 只 会 造成 传播 概率 差异 ; 信息 传播 受 
到 信息 内 容 的 重大 影响 ,每 次 传播 激活 的 有 效 网 络 不 同等 。 基 于 以 上 差异 ,病毒 传 
播 模型 在 某 些 方面 并 不 能 较 好 地 解释 信息 传播 , 故 经 过 进一步 的 研究 发 现 ,提出 了 
影响 力 传播 模型 。 


5.2.2 影响 力 传播 模型 


经 典 的 影响 力 传播 的 模型 主要 有 两 种 : 线性 阔 值 模型 (Linear Threshold 
Model) 和 独立 级 联 模型 (Independent Cascade Model) 。 

背 助 于 图 论 的 研究 基础 ,可 以 把 社会 网 络 抽象 成 一 个 无 向 或 有 向 图 ,通常 采用 
G(V，, E,W) 的 形式 来 表示 图 ,并 且 给 定 初始 传播 结 点 集合 S .其 中 ,V 表示 社会 
网 络 中 的 个 体 集合 ,通常 集合 中 的 个 体 指 的 是 人 ; 巨 表示 个 体 与 个 体 之 间 的 相互 关 
系 集合 , 即 在 无 向 图 中 存在 一 条 边 eu 在 EE 集合 中 ,在 信息 传播 中 就 表示 结 点 4 与 结 
点 v 之 间 存 在 传播 路 径 ; W 则 表示 个 体 之 间 的 关系 权重 ,在 信息 传播 中 ,rw; 有 时 可 
代表 个 体 i 对 个 体 j 的 影响 概率 ,也 就 是 结 点 i 成 功 激活 结 点 j 的 概率 ,不 失 一 般 性 ， 
假设 22 ， rw 三 1。 每 个 结 点 都 有 两 种 状态 : 未 激活 状态 .激活 状态 .激活 是 指 某 
个 未 激活 状态 的 结 点 被 其 已 激活 的 邻接 结 点 所 影响 而 变 为 激活 状态 ,激活 状态 表 
示 接 受 了 某 种 观点 或 产品 ,未 激活 状态 表示 没有 被 影响 到 ,或 是 指 未 接受 观点 或 产 
品 。 在 社会 网 络 中 ,激活 状态 结 点 数目 越 多 说 明 结 点 的 影响 越 大 。 

1. 线性 阔 值 模型 

阔 值 模型 针对 的 是 一 种 集体 行为 ,集体 行为 下 的 阔 值 指 的 是 个 体 基于 某 种 社 
会 系统 中 已 经 参与 某 项 行为 活动 的 其 他 人 的 比例 或 倾向 来 决定 是 否 参与 该 活动 ， 
由 此 ,个 体 是 否 采 纳 新 的 行为 依据 的 是 社会 系统 中 或 是 群体 中 其 他 人 行为 的 函数 。 
事实 上 ,在 现实 生活 中 个 体 行为 受 群 体 其 他 人 行为 的 影响 的 例子 比比 皆 是 , 举 个 生 
活 中 常见 的 例子 来 形象 地 阑 述 阔 值 模型 。 假 设 当 某 个 人 去 一 个 陌生 的 城市 ,在 晚 
饭 时 间 这 个 人 想 在 一 个 不 知名 的 餐馆 吃饭 ,通常 情况 下 ,很 多 人 的 想法 是 如 果 在 这 
个 餐馆 中 的 就 餐 的 人 数 适中 或 很 多 ,说 明 这 个 餐馆 的 饭 的 味道 还 不 错 , 那 么 这 个 人 
就 会 决定 在 这 个 餐馆 就 餐 ; 反之 ,这 个 人 很 有 可 能 不 会 在 这 个 餐馆 吃饭 。 同 样 在 
采纳 新 思想 或 新 产品 时 ,大 部 分 人 的 想法 是 会 受 其 他 人 使 用 该 新 产品 或 新 思想 后 
的 效果 来 决定 是 否 采纳 新 的 思想 和 产品 。 因 此 ,这 种 个 体 接 受 新 信息 的 倾向 或 是 
比例 就 是 其 接受 新 信息 的 闵 值 。 
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同样 原理 ,在 社会 网 络 中 的 影响 传播 模型 中 , 闵 值 模型 就 是 最 直接 的 想法 。 线 
性 阅 值 模型 的 研究 可 以 回溯 到 20 世纪 70 年 代 , 它 的 主要 思想 是 : 为 信息 传播 网 
络 中 的 每 个 结 点 设 定 一 个 接受 阔 值 , 结 点 之 间 都 存在 互相 影响 的 可 能 性 ,这 种 可 能 
性 被 表示 成 社会 网 络 中 结 点 与 结 点 之 间 的 影响 概率 ,影响 概率 的 值 越 大 ,表明 结 点 
之 间 的 交互 强度 越 大 , 即 相互 影响 的 强度 也 会 越 大 。 对 于 每 个 结 点 来 说 , 随 着 时 间 
时 刻 不 断 推移 ,如 果 它 周围 的 邻居 结 点 越 来 越 多 地 接受 了 某 种 观点 或 实施 某 种 共 
同行 为 ,那么 相 邻 接 的 结 点 会 以 各 自 的 影响 概率 来 影响 它 ,一 旦 这 些 影响 的 概率 值 
累积 超过 了 这 个 结 点 的 接受 阔 值 ,那么 这 个 结 点 就 会 接受 同样 的 观点 或 者 实施 同 
样 的 行为 。 由 此 ,线性 阔 值 模型 的 传播 过 程 可 以 描述 如 下 : 对 于 每 个 结 点 v eV 一 
律 随机 地 抽取 一 个 阔 值 bsL0, 1 ], 阅 值 0, 表示 网 络 中 的 个 体 v 在 面 对 周围 群体 的 
其 他 行为 后 ,是 否 会 采取 同样 行为 的 界限 , 换 句 话说 ,要 激活 结 点 v,0, 表示 结 点 v 
所 能 接受 到 的 已 经 被 激活 的 邻接 结 点 的 累积 影响 强度 。 结 点 v 所 接受 到 的 累积 强 
度 E, 可 以 表示 为 

五 ,三 > Wm 
4 是 v 的 已 被 激活 的 邻居 结 点 

设 定 一 个 初始 的 激活 结 点 集合 VocV ,其 余 不 属于 Vo 集合 的 结 点 都 是 未 激活 
的 结 点 ,激活 过 程 是 在 离散 的 时 间 步 长 依次 进行 ,在 :一 1 时 刻 所 有 被 激活 的 活跃 
结 点 可 以 在 上 时刻 去 激活 它们 的 未 被 激活 的 邻接 结 点 ,在 上 时 刻 , 若 某 个 结 点 x 的 
累积 影响 强度 EE, 宇 0 时 ,该 结 点 就 成 为 激活 结 点 ,那么 结 点 就 具备 了 在 下 一 时 
刻 激活 其 邻居 结 点 的 能 力 , 结 点 u 加 入 到 时 刻 t 中 激活 状态 的 结 点 集合 S, 中 ,继续 
这 样 的 过 程 ,直到 再 没有 新 的 结 点 被 激活 ,整个 传播 过 程 就 停止 。 在 不 同 的 应 用 领 
域 ,对 于 每 个 结 点 的 影响 国 值 的 设 定 ,有 时 由 于 缺乏 评估 特异 性 冰 值 的 有 效 办 法 ， 
除了 一 般 意义 上 的 随机 选择 方法 之 外 , 另 一 类 最 常用 的 方法 是 将 每 个 结 点 的 阔 值 
统一 设 为 一 个 定 值 , 例 如 0. 5。 

下 面 举例 来 说 明 线性 国 值 模型 。 假 设 该 网 络 为 有 向 图 ,共有 七 个 结 点 ,A、B、 
C.D、E、F.G 为 简单 起 见 ,假定 每 条 边 上 的 传播 概率 是 终点 入 度 的 倒数 , 即 ru 一 
1/k,, 其 中 ,表示 结 点 v 的 和 人 度 ,每 个 结 点 的 阔 值 设 定 为 0.5, 假 设 初始 的 激活 结 点 
是 结 点 A 和 G, 图 5.2 描述 了 在 线性 阔 值 模型 条 件 下 ,网络 中 信息 扩散 的 过 程 。 如 
图 所 描述 的 一 样 ,在 Ti 时 刻 , 结 点 B 由 于 其 邻接 结 点 G 处 于 激活 状态 , 且 指 向 结 点 
B 的 Wes 二 1 名 二 0.5, 故 结 点 B 被 激活 ; 结 点 D 由 于 其 邻接 结 点 A 处 于 激活 状 
态 , 且 指向 结 点 DD 的 Wp 二 1/2 宇 负 p= 二 0.5, 故 结 点 D 被 激活 。 在 T, 时 刻 , 结 点 C 
由 于 其 邻接 结 点 A、B 处 于 激活 状态 , 且 指 向 结 点 C 的 Weac 十 Wac== 1/3 十 1/3 > 
Qe 二 0.5, 故 结 点 C 被 激活 ; 同 理 , 结 点 下 由 于 其 邻接 结 点 B 处 于 激活 状态 , 且 指 
向 结 点 玉 的 Wag 二 1/2 宇 经 二 0.5, 故 结 点 下 被 激活 ; 结 点 下 由 于 其 邻接 结 点 B、 
D 处 于 激活 状态 , 且 指 向 结 点 下 的 Wee 十 Wor 二 1/2 十 1/2 > 外 = 0.5, 故 结 点 下 
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图 5.2 线性 阔 值 模型 的 传播 例子 


2. 独立 级 联 模 型 
独立 级 联 模型 也 是 经 典 的 信息 扩散 模型 ,同样 是 一 个 概率 模型 。 这 个 模型 与 


下 一 时 刻 激 活 其 邻居 结 点 的 机 会 只 有 一 次 。 在 独立 级 联 模型 中 ,信息 扩散 过 程 与 
线性 阔 值 模型 的 信息 扩散 相同 ,都 是 从 一 个 初始 选 定 的 活动 结 点 集合 作为 传播 源 
开始 ,一旦 当 某 个 结 点 z 在 第 上 步 被 激活 , 它 将 只 有 一 次 机 会 去 激活 它 的 每 一 个 当 
前 未 被 激活 的 邻居 结 点 ,如 果 对 于 结 点 w 的 某 个 邻居 结 点 v 来 说 , 结 点 v 被 结 点 w 
激活 的 概率 是 P, ,如 果 结 点 v 被 忆 成 功 激活 ,那么 结 点 v 就 成 为 在 第 t 十 1 步 被 
激活 的 结 点 , 结 点 v 被 加 入 到 7 十 1 时 刻 的 激活 结 点 集合 ,到 此 , 结 点 w 也 完成 了 
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它 的 激活 使 命 , 结 点 w 将 不 能 再 激活 它 的 其 余 的 邻居 结 点 。 在 这 个 过 程 中 ,激活 
过 程 是 不 可 逆 的 , 即 某 个 未 激活 结 点 一 旦 被 激活 , 便 再 无 法 改变 其 变 为 未 激活 结 
点 。 对 于 结 点 集合 中 的 每 个 结 点 重复 刚才 的 过 程 ,直至 没有 新 的 结 点 被 激活 时 ,这 


个 传播 过 程 就 停止 。 
下 面 举例 来 说 明 独 立 级 联 模型 。 假 设 该 网 络 为 有 向 图 ,如 图 5. 2 一 样 共有 七 
个 结 点 ,A`B`\C. DEF.G, 每 条 边 的 权 值 表 示 结 点 vx 以 Pu 的 概率 激活 vv, 其 中 以 


表示 边 的 起 点 ,v 表示 边 的 终点 ,为 了 简单 起 见 , 随 机 给 定 每 条 边 上 的 传播 概率 ， 
图 5. 3 描述 了 在 独立 级 联 模型 下 ,网 络 中 信息 扩散 的 过 程 。 假 设 初始 的 激活 结 点 
仍然 是 结 点 A 和 G, 如 图 所 描述 的 一 样 ,在 Ti 时 刻 , 结 点 G 试图 激活 其 邻接 结 点 
B, 结 点 A 试图 激活 其 邻接 结 点 C.D, 在 这 种 情况 下 ,假设 只 有 结 点 B 被 成 功 激活 ， 
结 点 C 和 D 都 被 激活 失败 ,由 此 , 结 点 A 和 G 完成 了 它们 的 激活 使 命 ,在 下 一 时 刻 
T; 结 点 A 和 G 就 不 再 有 机 会 激活 其 他 结 点 ; 在 Ts 时 刻 , 结 点 了 分 别 以 不 同 的 概 
率 试图 激活 其 邻接 结 点 C、.E、F 和 DD, 但 是 ,只 有 结 点 E\F 被 成 功 激活 , 结 点 C 和 D 
激活 失败 ,由 此 , 结 点 B 在 时 刻 T, 完 成 了 它 的 激活 使 命 ,在 下 一 时 刻 T; 结 点 B 就 
不 再 有 机 会 激活 其 他 结 点 ; 在 T; 时 刻 , 结 点 巨 和 下 分 别 以 不 同 的 概率 试图 激活 其 
邻接 结 点 C, 此 时 ,假设 结 点 C 被 成 功 激活 , 则 结 点 EE 和 下 的 激活 使 命 终结 ,由 于 在 
下 一 时 刻 C 不 能 影响 任何 结 点 ,到 此 ,所 有 结 点 都 各 自 完成 了 它们 的 激活 任务 , 则 
网 络 中 的 信息 扩散 过 程 全 部 结束 。 

3. 其 他 模型 

关于 社会 网 络 中 的 信息 传播 ,还 有 许多 其 他 的 模型 ,例如 有 竞争 的 影响 传播 模 
型 ,有 负面 评价 的 传播 模型 ,观点 与 论 传播 模型 ,投票 模型 等 。 

对 于 一 个 有 争议 的 舆论 ,一 个 人 可 以 选择 支持 或 反对 。 然 而 在 观点 传播 过 程 
中 ,个 体 可 能 由 于 信任 程度 .周围 邻居 鼓动 等 对 固有 观点 产生 动摇 ,从 而 对 全 局 观 
点 的 分 布 产 生 影响 。 当 一 个 群体 达成 共识 时 ,才能 发 挥 集体 的 力量 。 

最 经 典 的 观点 舆论 模型 是 Sznajd-weron 和 Sznajd 在 2000 年 提出 的 基于 类 自 
旋 系 统 模型 。 该 模型 以 投票 选举 A 和 了 B 为 例 , 每 个 人 都 会 按照 自己 的 观点 来 选择 
支持 A 或 B, 并 且 为 网 络 中 的 结 点 建立 一 维 规则 的 格子 链 ,每 个 格子 表示 一 个 个 
体 。 每 个 个 体 的 观点 S;=1 表示 赞同 ,Si= 一 1 表示 反对 。 

观点 在 网 络 中 的 传播 规则 如 下 : 

(1) 如 果 SiS = 二 1, 则 S;_ ,和 Si 都 和 S;,Si+i 取 值 相 同 。 

(2) 如 果 SiS+i 一 一 1, 则 S-;， 和 Si 分 别 取 S + 和 5; 的 数值 。 

这 个 规则 阐述 了 这 样 的 思想 : 一 对 结 点 的 观点 可 以 影响 其 共同 邻居 的 观点 。 
即 当 一 对 结 点 有 着 相同 的 见解 ,它们 最 邻近 的 共同 邻居 就 持 相同 观点 。 若 当 一 对 
结 点 持 不 同 观点 ,其 最 近 的 邻居 的 每 一 个 成 员 意 见 都 不 一 样 。 
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图 5.3 独立 级 联 模型 的 传播 例子 


利用 该 模型 分 别 研究 了 所 有 人 支持 A, 所 有 人 支持 B,50% 支 持 A 和 50% 支 
持 B 的 三 种 情况 下 观点 的 磁化 率 以 及 信息 噪声 。 结 果 表 明 在 一 个 封闭 的 社会 ,一 
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种 观点 要 么 出 现 独裁 要 么 就 是 僵局 ,总 体 趋 于 观点 一 致 。 而 在 小 而 开放 的 社会 , 观 
点 不 会 趋向 于 任何 稳定 状态 ( 孟 繁 荣 ,2013)。 


5.3 社会 网 络 中 的 信息 传播 的 应 用 


5.3.1 影响 最 大 化 


由 于 社会 网 络 是 由 个 体 及 个 体 之 间 的 关系 所 组 成 的 一 个 复杂 网 络 , 这 种 复杂 
的 社会 结构 对 信息 的 传播 和 扩散 起 着 至 关 重 要 的 作用 。 例 如 当 一 个 人 采纳 一 个 新 
的 思想 或 接受 一 种 产品 时 ,他 会 向 他 的 朋友 或 同事 推荐 , 某 些 人 可 能 会 接受 或 采纳 
他 的 推荐 ,并 进一步 向 他 们 自己 的 朋友 或 同事 推荐 ,一 个 人 的 行为 在 很 大 程度 上 取 
决 于 周边 的 朋友 或 同事 的 决定 。 而 影响 最 大 化 问题 主要 考虑 了 如 何 有 效 地 发 挥 一 
个 人 在 社会 网 络 中 的 影响 力 。 

影响 最 大 化 问题 的 研究 有 着 十 分 重要 的 现实 意义 ,在 市 场 营销 .广告 发 布 . 与 
情 预 警 以 及 社会 安定 等 方面 有 十 分 重要 的 应 用 。 影 响 最 大 化 的 问题 实际 上 可 归结 
为 这 样 一 个 问题 : 即 如 何在 网 络 中 选择 一 些 初始 的 受众 群体 ,让 他 们 接受 某 种 产 
品 和 新 思想 ,然后 再 利用 他 们 的 影响 力 ,不 断 地 把 这 种 产品 的 效果 和 思想 传播 出 
去 ,这 就 是 口 口 相传 的 目的 ,为 了 在 尽 可 能 少 的 成 本 下 使 得 被 影响 的 范围 扩大 , 即 
影响 广大 群体 。 一 个 关键 性 的 问题 就 是 如 何 选 择 这 些 初始 的 受众 ,使 得 选择 的 人 
又 少 , 但 其 影响 的 面 又 很 广 。 

Richardson 等 (2002) 将 影响 最 大 化 问题 归纳 为 一 个 算法 问题 。 近 年 来 ,社会 
网 络 中 影响 最 大 化 算法 成 为 研究 热点 。 一 部 分 研究 的 关注 点 在 于 寻找 网 络 中 最 有 
影响 力 的 那些 结 点 ; 一 部 分 研究 的 目标 主要 集中 在 如 何 扩 大 影响 范围 同时 降低 算 
法 的 时 间 复 杂 度 ; 还 有 的 研究 是 基于 在 不 同情 况 下 的 影响 最 大 化 问题 ,例如 有 负 
面 信息 存在 的 情况 下 ,有 竞争 信息 存在 的 情况 下 。 当 前 ,社会 网 络 影响 最 大 化 问题 
的 研究 都 会 基于 之 前 所 介绍 的 两 个 基本 传播 模型 : 线性 阔 值 模型 和 独立 级 联 
模型 。 

随 着 Web 2.0 的 出 现 及 流行 ,目前 出 现 了 很 多 大 型 在 线 社交 网 站 ,如 上 文 提 
到 的 Facebook Flickr 等 ,这 些 大 型 在 线 社会 网 络 的 成 员 数 目 都 非常 庞大 ,数据 量 
的 极 大 增加 对 传统 社会 网 络 中 的 影响 最 大 化 算法 ,包括 传播 模型 均 提出 了 巨大 的 
挑战 。 


5.3.2 病毒 营销 


病毒 营销 (Viral Marketing, 又 称病 毒 式 营销 、 病 毒性 营销 、 基 因 行 销 或 核 爆 式 
行销 ) ,是 一 种 常用 的 网 络 营销 方法 ,常用 于 进行 网 站 推广 .品牌 推广 等 。 病 毒 营销 
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利用 的 是 用 户口 碑 传播 的 原理 ,在 互联 网 上 ,这 种 “口碑 传播 "更 为 方便 ,可 以 像 病 
毒 一样 迅 速 草 延 , 利 用 快速 复制 的 方式 传 向 数 以 千 计 、 数 以 百 万 计 的 受众 ,因此 病 
毒 营销 成 为 一 种 高 效 的 信息 传播 方式 。 而 且 , 由 于 这 种 传播 是 用 户 之 间 自 发 进行 
的 ,因此 是 一 种 几乎 不 需要 费用 的 网 络 营销 手段 ,并 能 迅速 地 扩大 自己 的 影响 。 

病毒 营销 这 一 概念 ,最 早 由 贾 维 逊 (Steve Jurvetson) 及 德 雷 伯 (Tim Draper) 
在 1997 年 发 表 的 (病毒 营销 ) 一 文中 首先 提出 ,并 初步 定义 为 “基于 网 络 的 口碑 传 
播 ?>。 这 个 概念 的 提出 是 基于 Hotmail 的 实践 。Hotmail 是 世界 上 最 大 的 免费 电 
子 邮件 服务 提供 商 , 在 创建 之 后 的 1 年 半 时 间 里 ,就 取得 了 令 人 不 可 思议 的 成 绩 。 
它 吸引 了 1200 万 注册 用 户 ,而且 还 在 以 每 天 超过 15 万 新 用 户 的 速度 发 展 。 当 时 
Hotmail. com 提供 免费 E-mail 地 址 和 服务 ,在 每 一 封 免费 发 出 的 信息 底部 附加 一 
个 简单 标签 : Get your private，free email at http://www. hotmail. com。 人 们 可 
以 利用 免费 的 E-mail 向 朋友 或 同事 发 送信 息 ,并 且 接 收 邮件 的 人 也 将 看 到 邮件 底 
部 的 信息 ,同时 应 邀 加 入 使 用 免费 E-mail 服务 的 行列 。 通 过 上 述 的 策略 ,Hotmail 
提供 免费 E-mail 的 信息 在 更 大 的 范围 扩散 。 而 同期 的 竞争 者 Juno Online 
Services 没有 采用 病毒 式 营销 的 推广 方式 ,而 是 在 传统 的 营销 方式 上 斥资 2000 万 
美元 ,但 收效 其 微 。 由 此 可 见 病毒 营销 的 效果 和 威力 。 

Hotmail 之 所 以 爆炸 式 的 发 展 ,就 是 由 于 利用 了 “病毒 式 营销 ”的 巨大 效力 。 
病毒 式 营销 的 成 功 案例 还 包括 Amazon、ICQ、eGroups 等 国际 著名 网 络 公司 。 病 
毒 式 营销 既 可 以 被 看 作 是 一 种 网 络 营 销 方 法 ,也 可 以 被 认为 是 一 种 网 络 营 销 思想 ， 
即 通 过 提供 有 价值 的 信息 和 服务 ,利用 用 户 之 间 的 主动 传播 来 实现 网 络 营销 信息 
传递 的 目的 。 

病毒 营销 主要 有 以 下 特点 : 

(1) 有 吸引 力 的 病原 体 。 病 毒 营 销 能 够 让 目标 消费 者 自发 地 成 为 其 信息 传播 

渠道 的 原因 在 于 第 一 传播 者 传递 给 目标 群 的 信息 不 是 赤裸 裸 的 广告 信息 ,而 是 经 
过 加 工 的 .具有 很 大 吸引 力 的 产品 和 品牌 信息 ,这 种 方法 为 广告 信息 披 上 了 一 件 漂 
亮 的 外 衣 。 这 使 得 消费 者 能 够 克服 戒备 心理 的 防火墙 ”, 积 极 接 受信 息 , 完 成 从 纯 
粹 受众 到 积极 传播 者 的 变化 。 
(2) 几何 倍数 的 传播 速度 。 病 毒 营销 师 的 信息 推广 方式 是 自发 的 .具有 扩张 
性 的 ,而 不 是 均衡 地 、 同 时 地 无 分 别 地 传 给 社会 上 每 一 个 人 ,这 使 得 信息 的 传递 更 
有 具 有 针对 性 和 强 渗透 能 力 。 目 标 受 众 会 把 信息 传递 给 更 适合 接受 的 周围 的 好 友 、 
司 事 ,从 而 无 数 个 参与 的 “转发 大 军 ” 就 构成 了 成 几何 倍数 传播 的 主力 。 

(3) 高 效率 的 接收 。 由 于 在 病毒 营销 中 ,信息 是 受众 从 熟悉 的 人 那里 获得 或 
是 主动 搜索 而 来 的 ,在 接受 过 程 中 自然 会 有 积极 的 心态 ; 接收 渠道 也 比较 私人 化 ， 
如 手机 短信 、 电 子 邮件 .封闭 论坛 等 (存在 几 个 人 同时 阅读 的 情况 ,这 样 反而 扩大 了 
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传播 效果 )。 以 上 几 方 面 的 优势 ,使 得 病毒 式 营销 尽 可 能 大 地 克服 了 大 众 媒体 信息 
传播 中 的 缺陷 ,增强 了 传播 的 效果 。 

(4) 更 新 速度 快 。 病 毒 式 营销 的 传播 过 程 通常 是 呈 S 形 曲线 的 , 即 在 开始 时 
很 慢 , 当 其 扩大 至 受众 的 一 半 时 速度 加 快 ,而 接近 最 大 饱和 点 时 又 慢 下 来 。 


5.3.3 谣言 的 防 控 


网 络 谣言 是 指 通过 网 络 介质 (例如 邮箱 、 聊 天 软件 .社交 网 站 、 网 络 论坛 等 ) 而 
传播 的 没有 事实 依据 的 话语 。 主 要 涉及 突 发 事件 .公共 领域 ,名 人 要 员 颠覆 传统 、 
离 经 叛 道 等 内 容 。 谣 言传 播 具有 突 发 性 且 流 传 速度 极 快 ,因此 对 正常 的 社会 秩序 
易 造成 不 良 影响 。 例 如 2012 年 上 半年 出 现 的 加 碘 盐 可 以 防 核 辐射 的 谣言 ,就 导致 
了 多 个 城市 的 抢购 潮 , 虽 然 谣言 很 快 被 平息 , 却 造成 了 很 大 的 社会 影响 。 

由 于 谣言 在 社会 网 络 中 的 散布 和 病毒 扩散 很 相似 ,Daley 和 Kendan 于 20 世 
纪 60 年 代 借鉴 传染 病 模型 提出 了 谣言 传播 的 数学 模型 (DK 模型 ) ,在 谣言 传播 的 
定量 研究 中 被 广泛 地 运用 。 此 后 ,许多 学 者 为 扩展 其 应 用 范围 ,构建 了 形形色色 的 
DK 改进 模型 (如 MT 模型 )。 另 外 ,又 有 学 者 在 谣言 传播 模型 中 增加 了 度 关联 函 
数 , 并 对 谣言 传播 的 复杂 性 、 心 理 特征 、 蝴 蝶 效 应 进行 深入 思考 等 ( 王 长 春 和 陈 超 ， 
2012)。 


5.4 本 章 小 结 


社会 网 络 中 的 信息 传播 与 现实 社会 中 的 人 际 之 间 的 传播 行为 一 样 ,对 人 类 的 
生活 会 产生 重要 的 社会 和 经 济 影响 ,因此 ,社会 网 络 中 的 信息 传播 分 析 研 究 具 有 重 
要 的 意义 。 本 章 首先 从 社会 网 络 中 信息 传播 的 模型 人 手 , 介 绍 了 SIR 和 SIS 两 种 
经 典 的 病毒 传播 模型 ,病毒 传播 过 程 与 网 络 中 的 信息 传播 有 着 非常 相似 的 传播 机 
理 ; 接着 ,介绍 了 线性 阔 值 和 独立 级 联 两 种 经 典 的 影响 力 传播 模型 ,以 及 经 典 的 观 
点 与 论 模型 ; 最 后 介绍 了 社会 网 络 中 的 信息 传播 在 病毒 营销 .谣言 防 控 等 领域 的 
主要 应 用 ,阐述 了 各 自 的 应 用 状况 和 特点 。 


1. 简 述 经 典 的 病毒 传播 模型 SIS 和 SIR 模型 的 原理 。 

2. 查找 相关 资料 ,分 析 传 染病 模型 的 最 新 发 展 状况 。 

3. 假设 如 下 图 所 示 的 社会 网 络 ,假定 每 条 边 的 影响 权 值 是 有 方向 的 , 即 对 于 边 
E(u,v) 来 说 ,Wi 与 Ws 是 不 同 的 ,不 妨 假设 每 条 边 的 影响 权 值 分 别 是 W, = 1/k,， 
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了 一] 人 ,其 中 心 表 示 结 点 的 出 度 。 设 每 个 结 点 的 阔 值 都 为 0. 5, 设 定 初始 的 活 
动 (激活 ) 结 点 是 结 点 6 和 7, 试 画 出 在 线性 阔 值 下 该 社会 网 络 信息 传播 的 过 程 。 


4. 描述 下 独立 立 值 模型 与 线性 辣 值 模型 的 区 别 。 

5. 查找 相关 资料 ,分 析 影 响 力 传播 模型 的 发 展现 状 ,针对 有 竞争 的 传播 模型 、 
有 负面 影响 的 传播 模型 , 试 分 析 下 它们 各 自 的 问题 和 解决 方法 。 

6. 试 着 搭建 一 个 影响 力 传播 模型 的 实验 平台 ,选择 常用 的 标准 数据 集 , 如 合 
作者 网 络 、Flickr 等 ,设置 一 些 初始 条 件 ,验证 一 下 线性 阔 值 模型 .独立 级 联 模型 或 
自选 模型 。 


社会 化 媒体 计算 应 用 


本 章 学 习 目标 

。 了 解 社会 化 媒体 文本 挖 气 的 情感 分 析 
。 了 解 融合 社会 化 媒体 的 金融 预测 分 析 
。 了 解 社会 网 络 中 的 个 性 化 推荐 应 用 


6.1 基于 社会 化 媒体 文本 挖掘 的 情感 分 析 


6.1.1 情感 分 析 研 究 概述 


情感 分 析 是 指 利 用 计算 机 挖掘 .提取 出 互联 网 信息 的 褒贬 态度 和 意见 。 在 
社会 化 媒体 计算 中 ,情感 分 析 作 为 一 种 重要 的 分 析 手 段 ,已 经 被 广泛 地 应 用 到 商 
务 智 能 .与 情 监控 等 领域 中 。 国 内 外 对 于 中 英文 文本 的 情感 分 析 研 究 已 经 屡 见 
不 鲜 。 与 此 同时 ,国外 对 英文 文本 的 情感 分 析 研 究 主 要 分 为 “词典 " “句子 ”、 
“篇 章 ”“ 海 量 数据 集 ” 这 四 个 级 别 。 国 内 对 中 文 文本 的 情感 分 析 主 要 集中 在 
“词语 ”“ 句 子 ”“ 篇 章 ” 三 个 级 别 。 总 之 ,国内 外 众多 学 者 对 文本 情感 分 析 的 
研究 不 断 深入 ,进一步 为 情感 分 析 在 社会 化 媒体 计算 中 的 应 用 做 好 了 坚实 的 
理论 基础 。 

而 近 几 年 , 随 着 微 博 在 中 国 的 迅速 普及 和 用 户 数 量 的 剧 增 ,中 文 微 博 的 情感 分 
析 价 值 也 逐步 凸显 出 来 。 因 此 ,本 书 围绕 社会 化 典型 媒体 一 一 微 博 进 行情 感 分 析 ， 
为 了 让 情感 分 析 更 具有 针对 性 ,使 本 书 的 情感 分 析 研 究 更 具 应 用 扩展 性 ,本 书 进 一 
步 指定 围 绕 金融 领域 。 以 研究 过 程 为 线索 ,系统 地 阐述 了 基于 社会 化 媒体 的 情感 
分 析 研 究 方法 。 
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从 总 体 上 来 说 ,在 对 特定 领域 (本 书 以 金融 领域 为 例 ) 进 行情 感 分 析 时 ,往往 需 
要 将 研究 过 程 进一步 细 分 为 对 领域 相关 微 博 的 提取 和 对 领域 相关 微 博 情感 分 析 两 
个 主要 步骤 。 第 一 个 步骤 中 ,对 金融 领域 相关 微 博 的 提取 等 同 于 将 微 博 划 分 为 金 
融 相关 ,金融 不 相关 的 二 分 类 问题 。 第 二 个 步骤 中 ,对 微 博 情 感 分 析 的 处 理 同样 也 
可 以 看 做 将 金融 领域 微 博 进 一 步 划分 为 正 向 情感 金融 微 博 、 负 向 情感 金融 微 博 、 中 
性 情感 金融 微 博 的 三 分 类 问题 。 因 此 ,如 何 准确 有 效 地 进行 分 类 模型 的 设计 是 情 
感 分 析 的 核心 。 但 是 ,在 利用 分 类 模型 进行 处 理 之 前 ,需要 对 微 博文 本 进行 一 定 的 
预 处 理 ,提取 重要 参数 指标 ,进而 才能 满足 分 类 模型 的 要 求 。 在 完成 情感 分 类 之 
后 , 仍 需 要 选取 有 效 的 指标 对 分 类 结果 进行 准确 性 相关 评价 。 因 此 本 节 从 研究 过 
程 出 发 ,从 情感 分 析 文本 预 处 理 、 情 感 倾 向 分 类 模型 .情感 分 类 评价 指标 三 个 模块 
重点 介绍 了 情感 分 析 中 需要 了 解 与 掌握 的 基础 研究 方法 。 


6.1.2 情感 分 析 文 本 预 处 理 


1. 原始 数据 的 收集 

原始 数据 的 收集 是 进行 情感 分 析 的 基础 ,后 续 的 研究 都 需要 基于 对 海量 微 博 
数据 准确 .及 时 地 疏 取 收集 。 微 博 的 收集 可 以 通过 多 种 渠道 获得 ,常用 的 两 种 方法 
可 以 归结 为 : 基于 专业 采集 软件 与 基于 应 用 程序 编程 接口 (Application Programming 
Interface,API) 的 自主 编程 。 

在 网 站 数据 采集 软件 中 ,国内 已 开发 了 大 量 较为 成 熟 的 怜 取 工 具 , 利 用 率 较 高 
的 是 火车 头 采 集 器 LocoySpider。 数 据 采集 软件 在 使 用 时 操作 简单 易 懂 ,但 对 数据 
收集 结果 的 自动 处 理 上 仍 存在 软件 本 身 的 一 定 限制 。 因 此 ,可 以 基于 新 浪 微 博 、 腾 
讯 微 博 提 供 的 API 进行 自主 编程 ,将 数据 疏 取 结果 与 后 续 的 文本 处 理 无 缝 连接 
起 来 。 

在 数据 的 存储 方面 ,也 可 以 采用 多 种 存储 形式 ,如 将 每 条 微 博 存储 为 . txt 文 
件 , 或 存储 到 数据 库 中 等 。 因 为 考虑 到 微 博 的 信息 具有 一 定 的 特征 ,往往 较为 通用 
地 记录 了 微 博 用 户 的 昵称 ,粉丝 数 、. 微 博 内 容 、 转 发 数 .评论 数 ,发布 时 间 .用 户 标签 
等 特征 。 因 此 书 中 采用 了 将 微 博 数据 存储 到 关系 型 数据 库 如 Microsoft SQL 
Server、MySQL 等 之 中 。 为 下 一 步 的 微 博文 本 处 理 打 好 相应 的 数据 基础 。 

2. 微 博 关键 词 的 提取 

微 博 关键 词 的 提取 ,不同 于 传统 的 文本 关键 词 提取 方式 。 微 博 的 文本 内 容 被 
限制 在 140 字 以 内 ,并 伴随 有 多 种 网 络 流行 用 语 及 精简 的 词语 用 法 。 因 此 ,对 于 微 
博 关键 词 的 提取 , 主要 用 到 了 基于 TF-IDF 算法 的 改进 方法 。 此 方法 在 传统 的 
TF-IDF 算法 基础 上 ,增加 了 对 词组 字 长 的 考量 ,使 得 经 改进 的 TF-IDF 算法 得 出 
的 微 博 关键 词 更 加 的 准确 。 
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(1) 传统 的 TF-IDF 算法 简介 

TF-IDF 是 用 来 评估 一 个 词 对 于 一 个 文件 集 或 者 语料库 中 其 所 在 文件 的 重要 
性 。TF 词 频 表示 某 个 词 条 在 其 所 在 文档 中 出 现 的 次 数 。IDF 道 文档 频率 表示 如 
果 包 含 某 个 词 条 的 文档 越 少 ,那么 这 个 词 条 就 具有 很 好 的 区 分 能 力 。 词 条 的 重要 
程度 与 其 在 某 文档 中 出 现 的 次 数 成 正比 ,与 其 在 文件 集 ( 或 语料库 ) 中 出 现 的 频率 
成 反比 。 

对 于 某 一 文件 中 的 词语 t; 来 说 ,其 在 此 文件 中 的 重要 性 可 以 表示 为 式 (6-1)。 


Ni 
TFij = 去 -一 
Si 

大 


其 中 mv 表示 这 个 词 在 文件 由 中 出 现 的 次 数 , > ws 表示 此 词 在 文件 集中 出 现 的 


总 的 次 数 。 
对 于 某 一 文件 中 的 词语 t; 来 说 ,其 在 文件 集中 的 类 别 区 分 能 力 可 以 表示 为 
式 (6-2) 。 


(6-1) 


IDP = log 11 [| (6-2) 


:ti € d;} | 
其 中 |D | 表示 文 件 集中 文件 的 总 数 ,| {j:tiEd;} | 表示 包含 该 词 的 文件 数目 。 


对 于 某 一 文件 中 的 词语 总 来 说 ,其 在 整个 文件 集中 的 重要 性 可 以 表示 为 式 (6-3)。 


TFIDF = TF.;,; X IDF., (6-3) 

对 于 特定 词语 1; 来 说 ,其 在 某 一 文件 中 出 现 频率 越 高 ,在 整个 文档 集中 出 现 越 
低 , 其 TF-IDF 值 越 高 , 即 在 整个 文件 集中 的 重要 程度 越 高 。 

(2) 针对 性 的 TF-IDF 算法 改进 

传统 的 TF-IDF 算法 以 词 频 的 统计 为 主体 ,忽略 了 特征 词 的 位 置 、 特 征 词 的 长 
度 以 及 文件 的 来 源 是 否 一 致 等 一 系列 的 问题 。 从 20 世纪 末 开 始 , 国 内 外 研究 者 就 
不 断 地 寻找 方法 来 改进 TF-IDF 算法 。 改 进 的 算法 主要 分 为 两 类 ,一 类 是 针对 不 
同类 别 之 间 文 档 的 量 级 不 同 而 产生 的 权重 计算 问题 。 

有 的 学 者 提出 了 使 用 分 类 短语 CTD(Categorical Term Descriptor) 的 方法 来 
改进 TF-IDF 算法 ,来 达到 修正 TF-IDF 算法 在 处 理 不 同 量 级 的 文档 集 时 的 权重 计 
算 的 影响 。 具 体 表示 为 式 (6-4) 和 式 (6-5)。 


CTD (16) = TE tis¢) X IDF (Gis0;) x ICF G4) (6-4) 
Ic| ) 

ICF (4,) = log (EH , IDF(se) 
of LD 1 
. iog( 二] C60 


其 中 TF(& ,cb 表示 特征 项 在 类 c; 中 出 现 的 次 数 ; D(c ) 表 示 类 别 c; 中 的 文档 
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数 ; DF( ,ci) 指 类 别 c; 中 出 现 特征 项 i 的 文档 数 ; C 代表 类 别 数 。 

有 的 学 者 认为 传统 的 TF-IDF 算法 没有 考虑 到 特征 项 在 类 内 和 类 之 间 的 分 布 
情况 ,针对 这 种 情况 提出 了 一 种 结合 信息 炉 的 改进 方法 。 该 方法 通过 信息 分 布 炉 
来 调整 TF-IDF 的 特征 圈子 ,避免 了 对 分 类 没有 太 大 贡献 的 特征 项 赋予 较 大 的 权 
值 ,从 而 提高 文本 分 类 的 精度 和 召回 率 。 其 具体 表示 如 式 (6-6) 所 示 。 


tf CO x log (NY 十 0. ol] 


i Ca Cd))2 x [es( 袜 赶 全 o)] 


Xa(H,a) x H; (6-6) 

其 中 a(H ) 表 示 特 征 项 在 类 间 的 分 布 情况 ,H 表 示 特 征 项 在 类 内 的 分 布 情况 。 
当 一 个 特征 项 在 类 间 分 布 越 均匀 ,此 类 间 分 布 炉 越 大 ,a(H ) 越 小 ,对 分 类 贡献 就 
越 小 。 当 某 一 特征 项 在 类 内 分 布 越 均 匀 , 类 内 分 布 炉 H: 越 大 ,对 分 类 贡献 就 
越 大 。 

另 一 类 ,是 通过 引入 新 的 因子 来 改进 TF-IDF 算法 。 

有 的 学 者 引入 对 特征 词 词 长 和 位 置 的 考虑 来 改进 TF-IDF 算法 ,并 用 《半导体 
光电 ) 杂 志 的 真实 数据 为 例 , 验 证 了 改进 后 的 算法 的 确 能 够 提高 特征 词 抽取 的 效率 
和 准确 性 ,结果 如 式 (6-7) 所 示 。 


(fren X hn frew Xhe 十 es Xhas +Dxlos( 字 +0. "1) 


Wail(d) 


(6-7) 


a [en Xa + frew X Na fres XA +D xlog (a +0. a)] 
其 中 ww 为 考虑 词 长 和 位 置 的 特征 词 所 得 权重 ; fren 、frew 、fres 表 示 特 征 词 1 在 文 
档 标题 .关键 词 .摘要 部 分 出 现 的 频数 ,Xn Me Ms 表 示 特 征 词 上 出 现在 上 述 三 个 位 
置 的 权重 系数 , 为 词 长 权重 ; 表示 特征 词 : 出 现 文档 的 频数 ，N 为 文档 集中 的 
文档 数目 ; m 为 特征 词 数目 。 
因为 研究 对 象 为 微 博 数 据 , 而 微 博 一 般 为 1 一 3 句 话 (140 字 以 内 ) 构 成 ,所 以 
引入 词 长 来 改进 TF-IDF 算法 比较 适宜 。 如 式 (6-8) 所 示 。 
TFIDF;,;= TF;,; X IDF; XL 


Mi,j 


Dn 
其 中 ,ni 表示 这 个 词 在 文件 d; 中 出 现 的 次 数 , > ws 表示 此 词 在 文件 集中 出 现 的 


总 的 次 数 ; |D| 表 示 文 件 集中 文件 的 总 数 ,| {j:t; € d;) | 表示 包含 该 词 的 文件 数 
目 ; 工 为 词 长 权重 。 


(6-8) 


ID| 
Ea 
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3. 基于 ICTCLAS 的 文本 分 词 处 理 

文本 的 情感 分 析 往 往 是 在 词语 级 别 基 础 上 进行 的 ,因此 文本 的 分 词 处 理 , 同 时 
标注 词语 词性 是 进行 情感 分 析 之 前 十 分 重要 的 预 处 理 内 容 。 分 词 的 结果 将 用 于 基 
于 改进 的 TF-IDF 方法 的 关键 词 抽取 ,以 及 基于 多 维度 词典 的 微 博 情感 特征 模块 
识别 的 分 析 中 去 。 

目前 ,国内 的 汉语 分 词 系统 有 很 多 ,常见 的 中 文 分 词 开 源 项 目 有 SCWS、 
ICTCLAS HTTPCWS ,应 丁 解 牛 分 词 和 CC-CEDICT 这 五 种 。HTTPCWS 是 基 
于 HTTP 协议 的 中 文 分 词 系统 ,目前 只 能 在 Linux 下 运行 。CC-CEDICT 是 以 汉 
语 拼音 为 附中 的 英汉 词典 为 基础 进行 中 文 分 词 的 系统 。 而 ICTCLAS 是 我 国 最 早 
的 分 词 系统 ,来 源 于 中 国 科学 院 计算 技术 研究 所 ,并 由 张 华 平 博士 进行 升级 、 完 善 。 
其 主要 功能 包括 命名 识别 .词性 标注 、 中 文 分 词 .新 闻 识 别 , 并 且 支 持 用 户 自 定义 词 
典 ,支持 UTF-8、BIG-5 以 及 GBK 等 不 同 的 编码 。 目 前 ICTCLAS 系统 已 经 升级 
到 了 ICTCLAS 3.0。ICTCLAS 3.0 分 词 速 度 单机 996KB/s, 分 词 精度 98. 45%， 
API 不 超过 200KB, 各 种 词典 数据 压缩 后 不 到 3MB, 是 当前 世界 上 最 好 的 汉语 词 
法 分 析 器 。 在 国家 973 计划 项 目 评测 中 ,ICTCLAS 的 针对 简体 中 文 的 分 词 效果 要 
明显 优 于 其 他 系统 。ICTCLAS 的 分 词 原理 结构 图 如 图 6. 1 所 示 。 


原始 字符 串 
一 一] 优化 的 切 分 词 图 
原子 切 分 上 人 
原子 系列 1 | 
NN 最 短路 三 元 切 
径 粗 切 分 | ”一 一 | 分 词 图 
JN 个 结 
最 优 的 N 个 结果 和 | 
简单 未 大 | 地 | 。 | 基于 词类 
录 词 识别 | 名 的 HMM 分 词 
修 EE 的 N 人 结果 | 所 分 而 永光 
科大 末 枯 | 词类 的 HMM 
| 录 词 识别 | 标注 
标注 系列 


词法 分 
析 结 果 
图 6.1 ICTCLAS 的 框架 结构 
(资料 来 源 : 张 华 平 ,语言 浅 层 分 析 与 句子 级 新 信息 检测 研究 ,中 国 科学 院 计算 技术 研究 所 ) 
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对 于 微 博 内 容 的 分 词 可 以 采用 NLPIR 汉语 分 词 系 统 (ICTCLAS)2013 Java 
版 。 此 版 本 新 添加 了 针对 微 博 的 分 词 功能 ,能 够 有 效 地 识别 微 博 中 的 特定 用 词 ,如 
“给 力 ” 等 。 对 微 博文 本 进行 分 词 的 同时 ,还 能 对 每 个 分 好 的 词 进 行 词性 的 标注 ( 采 
用 计算 机 所 一 级 标注 ) 。 

ICTCLAS 2013 版 的 计算 所 的 词性 标注 集 说 明 如 表 6. 1 所 示 。 


表 6.1 ICTCLAS 2013 词性 标注 集 表 


词性 代码 词性 代码 词性 代码 词性 代码 

名 词 n 时 间 t 处 所 词 s 方位 词 f 

动词 v 形容 词 a 区 别 词 b 状态 词 也 

代词 数 词 m 量词 q 副词 d 

介词 p 连词 c 助词 u 叹 词 e 
语气 词 y 拟 声 词 o 前 缀 h 后 缀 k 
字符 串 六 标点 符号 w 


6.1.3 微 博 情感 倾向 分 类 模型 


微 博 的 情感 分 类 算法 大 体 可 以 分 为 两 类 : 基于 规则 的 方法 与 基于 机 器 学 习 的 
方法 。 其 中 ,基于 规则 的 方法 是 指 , 以 指定 的 情感 词典 为 基础 ,将 微 博 的 文本 内 容 
与 情感 词典 匹配 出 的 特征 极 性 进行 加 和 求 总 ,最 终 得 到 的 结果 为 整 条 微 博 的 极 性 ， 
因此 判断 微 博 的 情感 倾向 。 而 基于 机 器 学 习 的 方法 , 则 是 基于 微 博文 本 提取 出 的 
特征 值 作为 机 器 学 习 的 输入 属性 ,对 分 类 模型 进行 训练 ,并 将 训练 好 的 模型 作为 主 
要 分 类 手段 的 方法 。 

1. 基于 规则 的 方法 

基于 规则 的 方法 往往 建立 在 多 维度 词典 的 基础 之 上 ,根据 文本 预 处 理 得 到 的 
微 博 分 词 结果 与 情感 词典 中 的 极 性 特征 词 进行 匹配 ,每 一 个 可 以 与 情感 词典 相 匹 
配 的 词 都 被 赋予 一 定 的 极 性 值 ,最 终 把 所 有 极 性 值 按 一 定 的 权重 相 加 ,得 到 每 一 条 
微 博 的 情感 极 性 值 。 因 此 ,在 基于 规则 的 方法 中 ,对 情感 词典 的 选取 非常 重要 , 情 
感 词典 的 建立 可 以 利用 已 有 的 较为 全 面 的 词典 ,也 可 以 根据 需要 自 建 词 典 , 本 书 主 
要 选取 了 以 下 三 个 典型 的 情感 词典 为 例 进行 详细 介绍 。 

(1) 基于 表情 词典 的 特征 选择 

在 微 博 语言 中 ,各 式 各 样 的 表情 符号 能 够 很 直观 地 表现 出 微 博 发 布 者 的 情绪 
桂 点 。 针 对 微 博 的 情感 分 析 ,我 们 收集 了 腾讯 微 博 的 情感 符号 ,并 制 成 了 表情 符号 
字典 。 图 片 格式 的 表情 符号 被 存储 成 文本 格式 ,例如 圈 表 示 为 /微笑 ”, 分 为 正 向 
表情 字典 和 负 向 表情 两 类 。 正 向 表情 字典 共 收 录 23 个 表情 符号 , 负 向 表情 字典 共 
收录 27 个 表情 符号 。 构 建 的 表情 字典 如 表 6. 2 所 示 。 
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表 6.2 腾讯 微 博 表情 符号 字典 


词典 内 容 
bo ttt 正 向 】 | 得 下 .给 力 , 微 笑 . 色 得意. 调皮 、 隔 牙 . 强 .胜利 .OK. 跳 趾 转圈 . 酷 . 可 爱 、 
ee 惑 笑 、 奋 斗 . 鼓 掌 . 亲 亲 \ 太 阳 振 地 大 笑 、 左 太极 右 太极 、 飞 吻 


压力 山大 、 撤 嘴 ,流泪 , 闭 嘴 .大 哭 . 篮 众 、 发 怨 、 难 过 . 吐 、 白 眼 . 弱 、 没 心情 、 
bqf. txt( 负 向 ) | 伤 不 起 , 慨 火 、 惊 灵 、 响 驾 、 折 磨 、 衰 、 句 俯 、 硕 打 、 骂 视 、 菜 刀 、 炸 弹 、 刀 石化 、 
叹气 发抖 


用 表情 字典 做 特征 项 的 选择 ,关键 要 素 是 分 析 微 博 的 存储 结构 。 正 常 的 微 博 
经 ICTLAS 分 词 后 , 按 条 存储 在 txt 文档 之 中 。 但 由 于 分 词 系 统 的 不 完备 性 ,一 些 
表情 符号 的 文本 会 被 错 分 成 几 个 词 。 例 如 :“ 大 婴 ? 经 分 词 后 在 txt 文档 中 储存 为 
“大 灸 ”三 个 分 开 的 部 分 。 为 了 准确 提取 此 类 表情 分 行 ,首先 将 分 词 后 的 微 博 储存 
在 string[ 中 ,用 空格 来 区 分 词组 。 其 次 ,寻找 “/”, 寻 找到 “/” 后 ,再 分 别 往 后 遍历 
1.2、3、4 位 ,与 “/” 重 新 组 合成 词组 ,再 放 入 正 向 表情 和 负 向 表情 字典 中 进行 匹配 ， 
并 计算 其 词组 在 字典 中 出 现 的 次 数 。 

(2) 基于 Hownet 情感 词典 的 特征 选择 

以 Hownet 情感 字典 为 基础 进行 特征 提取 ,主要 思想 是 首先 将 分 词 后 的 微 博 
储存 在 string[ ] 中 ,用 空格 来 区 分 词组 。 若 是 这 两 个 字典 中 有 这 个 词 , 则 向 这 个 词 
的 前 后 各 寻找 两 个 词 ,并 将 其 带 入 程度 词 字 典 和 否定 词 前 级 字典 进行 匹配 ,如 
图 6.2 所 示 。 


词语 2 |- 一 | 词语 1 | 一 | 情感 词 上 =| 词语 -1 [| 


图 6.2 基于 Hownet 词典 判断 短语 极 性 示意 图 


Hownet 情感 字典 收录 了 正 向 的 情感 词 . 负 向 情感 词 .否定 词 前 级 、 六 个 级 别 
的 程度 词 。 正 向 的 情感 词 包 括 “ 访 然 、 安 如 克 石 . 昂 然 "之 类 的 词 , 负 向 的 情感 词 包 
括 “ 谚 鸿 遍 时 \ 痛 得 懂 、 暗 无 天 日 "之 类 的 词 ,否定 词 前 缀 包括“ 不能、 不 应 该 .不 ”之 
类 的 词 。 而 六 个 级 别 的 程度 词 , 由 完全 肯定 (否定 ) 到 相对 肯定 (否定 ) 被 分 成 了 六 
个 级 别 词典 。 具 体 如 表 6. 3 所 示 。 

考虑 到 负 向 情感 词 对 人 影响 往往 大 于 正 向 情感 词 ,所 以 将 正 向 情感 词 定 基 为 
1, 负 向 情感 词 定 基 为 一 1. 5。 若 是 该 词 的 前 后 两 位 有 程度 词 , 则 根据 不 同 的 程度 ， 
给 予 不 同 的 系数 权重 。 若 是 该 情感 词 的 前 两 位 有 和 否定 前 组 字典 中 的 词 , 则 乘 以 系 
六 一 1 


表 6.3 Hownet 情感 词典 


词典 内 容 
hy 不 能 .不 应 该 .不 .不 得 .不 让 不然. 不 就 
Positive txt 询 . 诡 询 . 议 然 , 询 然 可 末 、 廊 如 .区 .得 事 、 安 . 安 分 . 安 好 .安静 .安康 安 
( 正 向 情感 词典 ) | 澜 .安乐 安宁、 安全、 安然 .安然 无 事 …… 
enti ht 阁 得 懂 、 衣 注 遍 野 . 矮 . 碍 难 . 碍 了 眼 、 爱 拱 不 理 .受理 不 理 . 暗 、 暗 淡 . 量 地 、 
( 负 向 情感 词典 ) | 暗地里 ,暗黑 、 暗 里 . 暗 昧 、 旱 无 天 日 . 暗 下 .暗中 …… 
en a 百分之百 .倍加 .备至 .不 得 了 不堪、 不 可 开交 .不 亦 乐 乎 .不 折 不 扣 . 初 
(程度 词典) 头 彻 尾 , 充 分 .到 头 . 非 常 . 极 、 极 度 , 极 端 .极其 .极为 
rose bt 不 过 .不 少 .不 胜 . 惨 . 沉 .沉沉 .出 奇 .大 为 .多 多多、 多 加 、 多 么 .分 外 . 格 
(程度 词典 ) 外 . 够 颇 的 .好 、 好 不 .何等 . 颇 、 颇 为 .其 .实在 …… 
degree3. txt 大 不 了 多、 更、 更 加 、 更 进一步 、 更 为 .还 、 还 要 、 较 、 较 比 、 较 为 .进一步 、 
(程度 词典 ) 那 般 . 那 么 .那样 . 强 、 如 斯 、 僵 发 .愈加 、 傅 来 愈 …… 
tend. it 不 为 过 . 超 .超额 出头. 多 . 浮 、 过 .过 度 、 过 分 .过 火 .过 劲 、 过 了 类、 过 犯 、 
(程度 词典 ) 过 热 ,过 其 ,过头 . 过 于 . 昔 . 老 . 偏 、 强 , 溢 . 式 …… 
degree5. txt 点 点 滴 滴 ,多 多 少 少 , 怪 、 好 生 、 还 \ 或 多 或 少 、 略 、 略 加 、 略 略 、 略 微 、 略 为 、 
(程度 词典 ) 蛮 、 稍 微 、 稍 为 、 稍 许 、 挺 .未免 相当、. 些 .些微 …… 
Ce 半点 \ 不 大 \ 不 丁点 儿 、 不 甚 \ 不 怎么 . 聊 、 没 怎么 . 轻 度 、 弱 、 丝 毫 、 微 .相对 
(程度 词典 ) 


(3) 基于 网 络 用 语词 典 的 特征 选择 

互联 网 是 一 个 口语 语言 的 集中 地 ,不 仅 如 此 ,互联 网 还 形成 了 自己 独特 的 语言 
特点 。 例 如 用 “稀饭 ”表示 喜欢 ,“ 给 力 ”“8 错 ” 表 示 赞 扬 ,high 表示 特别 高 兴 ,“ 翡 
催 ?“ 悲 剧 "“ 给 跪 了 ”表示 强烈 的 负面 情感 "呵呵 "表示 不 认可 、 无 奈 、 轻 视 的 情绪 。 
这 些 词语 具有 很 强 的 情感 表现 力 , 而 Hownet 之 类 通用 的 词典 并 没有 对 其 进行 收录 ， 
所 以 文章 在 此 基础 之 上 又 结合 网 络 用 语 , 提 取出 基于 网 络 用 语词 典 的 文本 特征 。 

下 面 人 工 收录 了 近 些 年 网 络 上 流行 的 用 语 , 并 提取 出 具有 明显 情感 倾向 的 词 
语 构成 网 络 用 语 正 向 和 负 向 情感 字典 ,作为 补充 词典 。 构 建 的 网 络 用 语 情感 字典 如 
表 6.4 所 示 。wlyyz. txt 为 正 向 的 网 络 用 语词 典 ,wlyyf txt 为 负 向 的 网 络 用 语词 典 。 


词典 


表 6.4 基于 网 络 用 语 的 情感 词典 


内 容 


wlyyz. txt( 正 向) 


顶 、 狂 顶 ` 流 口水 ,happy、high、 小 强 、. 养 眼 . 大 是 .8 错 、 稀 饭 . 果 着 , 走 召 马 
虽 、 嘻 嘻 、gx、NB、 弓 虽 、 牛 x、 有 料 .CM .给 力 、 牛 B、 高 富 帅 、 白 富美 


wlyyf. txt( 负 向 ) 


学、 靠 . 拍 砖 . 误 .恐龙 . 废 此 . 属 丝 .BT.FT、.SL.MD.TMD.ITNND、JJWW、 
SJB.PMP、MPJ、 抓 狂 、 包 子 、 蛋 白质 、.55555、BC、JR、JS、 垃 圾 、 泪 .呵呵 、 
kao、damn.\ 倒 、 寒 、SIGH 、DBC、puke、SB、BS 
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网 络 用 语 情感 词典 在 情感 分 析 中 的 使 用 方法 类 似 于 Hownet 词典 的 使 用 方 
法 。 在 用 程序 实现 过 程 中 ,首先 将 分 词 后 的 微 博 储 存在 string[ ] 中 ,用 空格 来 区 分 
词组 。 将 存储 微 博 的 数组 代 人 正 向 情感 和 负 向 情感 字典 中 进行 遍历 。 若 是 这 两 个 
字典 中 有 这 个 词 , 则 向 这 个 词 的 前 后 各 寻找 两 个 词 ,并 将 其 代入 程度 词 字典 和 和 否定 
词 前 级 字典 进行 匹配 。 为 了 使 得 分 词 时 不 把 这 些 网 络 用 词 给 拆 分 开 , 故 在 分 词 程 
序 中 添加 用 户 词典 ,导入 网 络 用 词 。 在 进行 情感 倾向 特性 选择 时 ,将 网 络 用 语词 典 
并 人 Hownet 词典 中 进行 情感 倾向 统计 。 

总 而 言 之 , 微 博 情 感 倾向 的 特征 选择 都 是 基于 网 络 用 语词 典 、Hownet 情感 词 
典 、 表 情 词典 三 维度 字典 之 上 完成 的 ,分 析 过 程 为 对 同一 篇 微 博文 本 依次 进行 基于 
三 个 字典 的 特征 统计 。 并 以 统计 的 结果 作为 每 一 条 微 博 机 器 学 习 情感 倾向 分 类 的 
输入 值 。 

2. 基于 机 器 学 习 的 算法 

与 基于 规则 的 算法 相 比 , 基 于 机 器 学 习 的 算法 往往 能 够 表现 出 更 好 的 分 类 结 
果 , 机 器 学 习 算 法 中 较为 典型 的 算法 理论 有 支持 向 量 机 (Support Vector Machine， 
SVM) .BP 神经 网 络 算法 、 朴 素 贝 叶 斯 算法 ,决策 树 (Decision Tree) 算 法 等 。 基 于 
以 往 的 研究 成 果 ,SVM 算法 一 般 能 够 表现 出 更 好 的 分 类 结果 ,因此 本 书 中 以 SVM 
算法 为 例 对 机 器 学 习 的 方法 进行 阐述 。 

(1) 支持 向 量 机 

支持 向 量 机 由 Vapnik 等 在 1995 年 提出 ,SVM 在 解决 小 样本 、 非 线性 识别 中 
具有 巨大 的 优势 。 支 持 向 量 机 的 最 根本 的 原理 就 是 将 低 维 空间 中 的 点 映射 到 高 维 
空间 中 ,使 之 成 为 线性 可 分 的 。 再 利用 线性 划分 原理 进行 分 类 边界 的 判断 。 

对 于 线性 可 分 的 二 分 类 问题 ,可 以 选择 直接 用 线性 的 支持 向 量 机 分 类 机 。 其 
公式 表示 如 下 。 


3 
5 
Ee 
iMS- 
iM- 


La 
yiyjiaiai (Ti* Ti) 一 Da 
本 


qi 之 0 i=1,,l 


= y— 2 yai(xi* x) (6-9) 
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对 于 线性 不 可 分 问题 ,可 使 用 线性 软 间隔 分 类 机 、 非 线性 硬 间 隔 分 类 机 、C- 支 
持 向 量 分 类 机 以 及 V- 支 持 向 量 分 类 机 等 。 最 常用 的 是 C- 支 持 向 量 机 ,其 分 类 问题 
可 以 表示 为 
映射 : T= {zisy1) se (Ty))} 
有 zi = $xi) 
分 类 面 : (w， 3) 十 b= 二 0 


1 
jn 
min Fw + CZs 


s.t, yw TO 二 1—&,i = 1, 
& 宇 0, i= ly dl 
与 对 偶 问题 


也 { 
min 二 > DyiyjaiayK (Crisx)) = Da 
a : pe 


0<a<C,i=1,.,l 
据 此 可 得 式 (6-10)。 


大 
6b" =yj— Dyiai Kzix)) 
1 一 1 


f(x) = sn Dar yk sr) + 人 (6-10) 


为 了 使 SVM 简单 易 用 ,台湾 大 学 林 智 仁 教授 开发 了 libsvm 软件 包 。 并 提供 
了 源码 ,方便 修改 和 调用 。 因 此 ,可 以 在 MATLAB 的 平台 上 调用 libsvm 的 软件 
包 , 对 微 博 的 情感 倾向 进行 分 类 实现 。 

(2) 支持 向 量 机 在 微 博 情感 分 析 中 应 用 

在 对 金融 相关 领域 进行 情感 分 类 过 程 中 ,由 上 文 可 知 ,该 过 程 可 以 分 为 提取 金 
融 相关 微 博 与 金融 微 博 情 感 分 类 两 个 步骤 。 以 第 一 步 提取 金融 相关 微 博 为 例 , 整 
个 过 程 如 图 6. 3 所 示 。 

在 进行 分 类 模型 输入 特征 选取 上 .基于 微 博文 本 特点 ,挑选 了 微 博 的 标点 数 
(Bdcount) ,标点 类 别 (Bdlb) ,文本 长 度 (Allcount) ,在 自 建 金融 词典 中 出 现 的 次 数 
(Jrcount) ,在 搜狗 金融 词典 中 出 现 的 次 数 (Qfcount) 作 为 输入 维 ,以 微 博 的 类 别 ( 金 
融 相 关 微 博 为 1, 非 金融 相关 微 博 为 0) 作 为 输出 维 。 输 入 向 量 如 式 (6-11) 所 示 , 其 
中 x, 表示 第 n 条 微 博 的 关于 金融 领域 相关 特征 的 第 m 个 特征 项 。 
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bdco bdlb allco jrco qfeo 
提取 第 1 条 | x ma 4 as 


微 博 .txt 特征 第 2 条 | wy 3 4 ws 
文本 文件 【 输 和 维 : |; ; ; ; ; 


第 n 条 Nnl Xn2 Xn3 Xn4 Xn5 
rminco) 
WmaxGe mine) 
bdco bdlb allco jrco qfeo 


数据 第 1 条 | Ja Ja pa Pls 
标准 化 第 2 条 [yx 2 JP3 Jp4 Ws 
StvvE[0.1] 


站 
第 7 条 | pn2 Dn3 Dn4 yns 


分 类 算法 。 第 2 条 | 必 | 统计 ”1 金融 相关 =0 条 
x 取 0.,1 只 0 金融 不 相关 =() 条 


Tl Tl2 Ts Tm Tlum 
T21 22 23 24 "Tzm 
Xpuz 一 (6-11) 


Tal Tn2 Tn3 Tn,4 Tam 

对 于 样本 数据 来 说 ,每 个 属性 的 量 级 都 有 可 能 不 一 样 。 若 是 不 对 数据 做 标准 
化 处 理 , 量 级 大 的 数据 影响 会 被 放大 ,而 量 级 小 的 数据 影响 将 会 被 缩小 。 为 了 规避 
此 种 情况 ,首先 对 数据 集 进行 归 一 化 处 理 , 将 数据 的 值 规范 化 到 [0, 1] 之 间 。 

对 于 属性 ziv 来 说 ,其 标准 化 到 [0, 1] 区 间 , 如 式 (6-12) 所 示 。 
er C6-12) 
其 中 ,zi, ;为 数据 集 属性 i 的 第 j 个 值 。min(z;,;) 为 属性 i 的 最 小 值 ,max(zx;,;) 为 
属性 i 的 最 大 值 。 分 类 模型 的 输出 如 式 (6-13) 所 示 。 


Yun 一 | . 《6-13) 


Yn 
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其 中 ,为 分 类 标签 , 若 为 金融 相关 微 博 则 结果 为 1, 反 之 为 一 1。 

将 整个 已 标注 的 微 博 数据 集 (Dataset) 分 为 训练 集 (Training Set) 和 测试 集 
(Test Set)。 使 用 SVM 进行 分 类 试验 ,SVM 的 参数 : 一 s 0, 一 t 2。 根 据 测试 集 的 
结果 进一步 完成 下 一 模块 对 分 类 结果 评价 的 分 析 。 

而 对 金融 微 博 的 情感 分 类 与 第 一 步 方 法 相似 ,但 是 因为 金融 微 博 情 感 分 类 是 
一 种 包含 正 向 情感 . 负 向 情感 和 中 性 情感 的 三 分 类 问题 ,因此 情感 分 类 最 终 分 为 三 
类 : 正 向 、 负 向 和 中 性 。 故 选择 使 用 一 对 一 (One Versus One) 的 方法 进行 分 类 训 
练 。 具 体 说 来 ,就 是 将 此 三 分 类 转化 为 三 个 二 分 类 问题 , 即 * 正 向 一 负 向 ”“ 正 向 一 
中 性 ”,“ 负 向 一 中 性 ”三 个 分 类 。 将 此 三 个 类 别 分 别 进行 训练 得 到 三 个 训练 模型 ， 
再 将 测试 集 代入 这 三 个 模型 之 中 进行 测试 ,最 后 再 采用 投票 的 方式 ,决定 测试 集中 
的 每 条 微 博 到 底 届 于 哪个 类 别 。 

投票 的 过 程 可 以 表示 为 ， 

A=B=C=0,A 代表 正 向 类 别 的 值 ,B 代表 负 向 类 别 的 值 ,C 代表 中 性 类 别 
的 值 ; 

( 正 向 , 负 向 ) 一 分 类 器 : 如 果 属 于 正 向 则 A++ ,如 果 属 于 负 向 , 则 B++; 

( 正 向 ,中 性 ) 一 分 类 器 : 如 果 属 于 正 向 则 A++ ,如 果 属 于 中 性 , 则 C++， 

( 负 向 ,中 性 ) 一 分 类 器 : 如 果 属 于 负 向 则 B++ ,如 果 属 于 中 性 , 则 C++; 

每 条 微 博 类 别 的 最 终归 属 为 A,B.,C 中 最 大 的 值 。 


6.1.4 情感 分 类 评价 指标 


对 于 分 类 问题 的 评价 指标 ,一般 包括 正确 率 、 召 回 率 和 下 指数 这 三 个 。 

1. 正确 率 

正确 率 即 查 准 率 , 此 指标 表示 实验 对 目标 判断 准确 的 能 力 ,正确 率 越 高 , 则 误 
判 的 概率 越 小 ， 


Pp， 二 正确 判断 为 金融 相关 微 博 数 
， ”判断 为 金融 相关 的 微 博 数 


P, 二 正确 判断 为 正 向 情感 的 微 博 数 
、 判断 为 正 向 情感 的 微 博 数 


Pp 二 正确 判断 为 负 向 情感 的 微 博 数 
: 判断 为 负 向 情感 的 微 博 数 


Pp 二 正确 判断 为 中 性 情感 的 微 博 数 
判断 为 中 性 情感 的 微 博 数 


对 于 提取 金融 相关 微 博 的 准确 率 用 Pi 来 表示 , 即 正确 判断 为 金融 相关 微 博 的 条 数 
与 判断 为 金融 相关 微 博 条 数 的 比值 。 对 于 微 博 情感 极 性 的 判断 准确 率 ,分 为 正 向 
情感 和 负 向 情感 和 中 性 情感 三 类 。 正 向 情感 的 判断 正确 率 用 P; 来 表示 , 即 正 向 情 
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感 判断 正确 的 微 博 数 与 判断 为 正 向 情感 微 博 数 的 比值 。 负 向 情感 的 判断 正确 率 用 
Ps 来 表示 , 即 负 向 情感 判断 正确 的 微 博 数 与 判断 为 负 向 情感 微 博 数 的 比值 。 中 性 
情感 的 判断 准确 率 用 P, 表示 , 即 中 性 情感 判断 正确 的 微 博 数 与 判断 为 中 性 情感 的 
微 博 数 的 比值 。 
2. 召回 率 
召回 率 即 查 全 率 ,此 指标 反映 了 实验 发 现 目 标的 能 力 。 召 回 率 越 高 , 则 漏 判 的 
越 少 。 本 实验 中 相关 公式 表示 如 下 ， 
R_ 一 正确 判断 为 金融 相关 微 博 数 
' 实际 为 金融 相关 的 微 博 数 
R, 二 正确 判断 为 正 向 情感 微 博 数 
实际 为 正 向 情感 的 微 博 数 


R。 二 正确 判断 为 负 向 情感 微 博 数 
实际 为 负 向 情感 的 微 博 数 
R， 二 正确 判断 为 中 性 情感 微 博 数 
实际 为 中 性 情感 的 微 博 数 
对 于 提取 金融 相关 微 博 的 召回 率 用 及 来 表示 , 即 为 正确 判断 为 金融 相关 微 博 
的 数量 与 实际 为 金融 相关 微 博 数 的 比值 。 对 于 微 博 情 感 极 性 的 召回 率 , 分 为 正 向 
情感 . 负 向 情感 和 中 性 情感 三 类 类 。 正 向 情感 微 博 的 召回 率 用 来 R, 表 示 , 即 正确 
判断 为 正 向 情感 的 微 博 数 与 实际 为 正 向 情感 的 微 博 数 的 比值 。 负 向 情感 微 博 的 召 
回 率 用 R; 来 表示 , 即 正确 判断 为 负 向 情感 的 微 博 数 与 实际 为 负 向 情感 的 微 博 数 的 
比值 。 中 性 情感 微 博 的 召回 率 用 R, 表示 , 即 正确 判断 为 中 性 情感 的 微 博 数 与 实际 
为 中 性 情感 的 微 博 数 的 比值 。 
3. 下 指数 
下 指数 是 用 来 综合 衡量 准确 率 和 召回 率 的 指标 。 定 义 如 式 (6-14) 所 示 
F= (E+1.0)XPXR wey 


pxXP 直 eR 
8 表示 准确 率 和 召回 率 的 相对 权重 。 当 有 8 等 于 1 时 ,两 者 同样 重要 ; 当 B 大 于 
1 时 ,召回 率 更 加 重要 ; 当 B 小 于 1 时 ,正确 率 的 比重 更 高 。 在 8 取 相 同 值 时 ,下 指 
数 的 值 越 高 , 则 说 明 此 种 算法 越 好 。 就 研究 对 象 而 言 , 正 确 率 更 显 重要 ,因此 8 取 
小 于 1 的 值 , 定 为 0.5。 
6.2 基于 流 形 学 习 的 社会 化 媒体 金融 复合 数据 
的 预测 


6.2.1 金融 预测 研究 概述 
中 国 的 股票 市 场 经 过 了 多 年 的 发 展 和 演化 ,不 断 地 自我 完善 ,逐步 成 熟 ,但 是 
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依然 存在 着 一 些 问题 。 股 票 市 场 的 波动 是 一 把 双 刃 剑 , 可 能 为 民众 带 来 丰厚 的 回 
报 ,也 有 可 能 造成 巨大 的 社会 问题 。 而 在 已 有 的 研究 中 ,学 者 们 通过 很 多 不 同 的 方 
法 来 探究 股票 市 场 的 发 展 规律 ,但 是 由 于 股票 市 场 本 身 的 复杂 性 ,股票 时 间 序 列 的 
非 平稳 性 、 长 尾 性 以 及 影响 因素 众多 等 特点 ,准确 预测 股票 价格 的 走势 是 一 项 艰巨 
的 任务 。 

近年 来 ,网 络 与 情 对 股市 的 影响 也 逐步 凸显 出 来 ,投资 者 对 于 有 公众 新 闻 的 股 
票 容易 反应 过 激 。 同 时 ,雅虎 等 网 站 上 的 股票 新 闻 能 够 显著 影响 股票 投资 的 收益 。 
种 种 研究 同时 表明 ,网 络 与 情 的 信息 量 也 能 对 股价 的 预测 产生 一 定 影响 。 此 外 ， 
Google 相应 关键 词 的 搜索 能 够 对 道琼斯 大 盘 指 数 进行 短期 的 有 效 预测 , 基于 
2004 一 2011 年 的 数据 利用 模拟 实验 实现 了 超过 300% 的 投资 回报 率 。 与 此 同时 ， 
就 中 国资 本 市 场 而 言 , 上 交 所 规定 了 紧急 停牌 重点 与 情 监测 媒体 15 家 : 上 海 证 券 
报 、 中 国 证 券 报 、 证 券 时报 、 第 一 财经 日 报 .21 世纪 经 济 报道 经济 观察 报 . 证 券 日 
报 、 华 夏 时 报 、 每 日 经 济 新 闻 、 中 国 经 营 报 、 财 经 ,证 券 市 场 周刊 ,新 世纪 周刊 、 和 讯 、 
新 浪 财经 等 ,实际 意义 上 证 明了 网 络 与 情 对 于 股票 市 场 的 影响 能 力 。 因 此 ,本章 着 
重 对 基于 网 络 与 情 的 股市 价格 预测 方法 做 了 较为 全 面 的 阐述 。 

在 社会 化 媒体 计算 的 视角 下 ,从 社会 化 媒体 信息 角度 出 发 ,利用 互联 网 文本 信 
息 ,数据 信息 等 多 渠道 获得 的 数据 ,提供 一 个 全 新 视角 的 股市 预测 分 析 方 法 。 


6.2.2 原始 数据 获取 及 量化 处 理 


1. 原始 数据 的 获取 

基于 互联 网 的 与 情 信息 来 源 较为 广泛 ,综合 国内 外 研究 的 成 果 , 本 书 考虑 可 以 
从 获取 股票 价格 时 间 序 列 数据 、 网 络 搜索 词 热度 .股票 新 闻 与 情 信息 数据 三 种 数据 
源 作 为 原始 数据 获取 的 途径 。 其 中 股票 价格 时 间 序 列 是 逐日 股票 交易 产生 的 基础 
数据 ,分 别 为 开盘 价 、 最 高 价 、 最 低 价 ,收盘 价 、 成 交 量 、 成 交 额 ,数据 可 以 由 金融 数 
据 服务 商 提供 (如 Wind 资讯 ); 网 络 搜索 词 热度 可 以 根据 百度 指数 对 于 定义 搜索 
词 的 热度 时 间 序 列 。 股 票 新 闻 和 与 情 数据 是 由 网 络 搜集 而 来 的 股票 新 闻 数 据 ,将 钼 
情 信 息 统计 后 获取 信息 量 和 情感 强度 两 个 基础 时 间 序 列 得 来 。 

(1) 股票 价格 时 间 序 列 数据 获取 

对 于 股票 价格 时 间 序列 数据 而 言 , 主 要 的 股票 技术 指标 基础 数据 有 六 个 ,分 别 
是 开盘 价 ,最 高 价 , 最 低 价 , 收 盘 价 ,成 交 量 ( 手 ) ,成 交 额 ( 百 万 元 )。 源 数据 可 以 由 
多 种 渠道 搜集 ,本 章 数据 主要 由 资讯 金融 终端 获得 ,在 此 基础 上 可 以 根据 需求 ,对 
不 同 的 股票 市 场 和 板块 市 场 进行 分 析 。 本 节 参 考 中 国人 民 大 学 信息 学 院 经 济 信息 
管理 系 林 航 同学 硕士 论文 ( 林 航 ,2013) ,针对 中 国 整个 股市 及 银行 板块 市 场 为 例 展 
开 分 析 , 收 集 两 个 典型 综合 指数 ( 沪 深 300 综合 指数 ,银行 板块 指数 ) 以 及 四 支 银行 
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板块 的 个 股 ( 民 生 银 行 一 600016、 兴 业 银 行 一 600036、 招 商 银行 一 601166、 中 信和 银 
行 一 601998)。 其 中 ,选取 个 股 的 依据 为 股份 制 银 行 中 利润 总 额 最 高 的 四 家 。 选 取 
申 银 万 国 证 券 一 级 行业 分 类 指数 一 一 银行 ( 申 万 ) 作 为 行业 指数 数据 ,同样 提取 开 
盘 价 , 最 高 价 ,最 低 价 , 收 盘 价 ,成 交 量 ( 手 ) ,成 交 额 ( 百 万 元 ) 等 数据 。 最 终 , 再 获取 
沪 深 300 指数 。 

(2) 网 络 搜索 热度 数据 获取 

对 于 网 络 搜 索 词 热 度数 据 的 获取 ,可 以 利用 百度 指数 平台 获取 对 于 相应 关键 
词 的 搜索 热度 。 百 度 指数 平台 如 图 6.4 所 示 。 
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图 6.4 百度 指数 平台 网 络 页 面 


利用 关键 词 一 一 沪 深 300、 银 行业 、 民 生 银 行 、 兴 业 银 行 、 招 商 银行 、 中 信和 银行 
分 别 进行 逐 月 检索 ,获取 关键 词 搜索 的 逐日 热度 ,形成 相应 搜索 词 热度 时 间 序 列 ， 
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以 用 于 下 一 步 处 理 。 

(3) 股票 新 闻 和 与 情 信 息 数据 获取 

对 于 股票 新 闻 和 与 情 信 息 数据 的 处 理 ,可 以 利用 各 大 新 闻 门 户 网 站 和 独立 财经 
媒体 获取 互联 网 财经 类 新 闻 。 主 要 从 三 种 新 闻 类 型 进行 数据 的 抓 取 , 一 是 影响 大 
盘 走 势 的 新 闻 ( 以 下 简称 市 场 新 闻 )., 二 是 影响 行业 走势 的 新 闻 ( 以 下 简称 行业 新 
闻 ), 三 是 影响 个 股 走势 的 新 闻 ( 以 下 简称 个 股 新 闻 )。 抓 取 的 所 需 数 据 为 网 站 
HTML 源 代码 中 的 有 效 文本 ,每 个 网 站 的 代码 存在 极 大 差异 ,到 目前 为 止 还 没有 
简单 的 方法 能 准确 地 从 网 页 中 直接 抽取 所 需 的 文本 信息 。 因 此 ,可 以 采用 整 站 抓 
取 的 策略 ,利用 网 络 息 虫 Heritrix。Heritrix 的 整体 结构 如 图 6. 5 所 示 。Heritrix 
是 一 个 怜 虫 框 架 , 从 总 体 而 言 ,其 为 一 个 平台 结构 ,各 组 成 部 分 都 具备 松散 耦合 的 
特点 ,可 以 自 定义 地 重组 ,为 基于 Heritrix 的 二 次 开发 提供 了 基础 。 


Web 可 管理 控制 台 抓 取 程序 
候 虫 处 理 器 条 (CrawluRD 一 
边界 器 预 取 链 | 
提取 链 | 一 

ee 服务 器 级 存 - 

抽取 链 Fe 一 线 

范围 -一 程 
已 包含 号 链 | | 
的 URIs | -一 日 程 (URD 一 一 后 处 理 链 [=< 一 
结束 (CrawIURD 一 一 一 


图 6.5 Heritrix 整体 结构 
(资料 来 源 : Mohr 等 ,Introduction to Heritrix,2004) 


Heritrix 工作 流程 如 图 6. 6 所 示 。 每 个 URI 都 有 一 个 独立 的 线程 ,边界 控制 
器 (Frontier) 将 和 候 过 的 URI 标记 ,同时 将 未 处 理 过 的 链接 放 和 人 等 待 处 理 的 
Processor Chains( 处 理 链 ) 中 采用 多 线程 处 理 ,Toe Thread 代表 处 理 URI 的 线程 ， 
最 后 经 过 一 系列 Processor( 处 理 器 ) 处 理 获得 所 需 数据 。 

利用 Heritrix 对 具体 站 点 的 信息 采集 中 ,这 些 站 点 可 能 存在 众多 外 链 , 所 以 可 
能 会 产生 采集 到 很 多 其 他 无 关 页 面 的 数据 宛 余 情 况 ,这 无 疑 会 大 大 降低 采集 效率 ， 
因而 针对 不 同 的 站 点 ,需要 定义 相应 的 网 址 筛选 规则 ,以 确保 不 会 采集 到 其 他 无 关 
页 面 。 解 决 这 个 问题 的 具体 处 理 方法 有 两 种 ,一 是 向 Heritrix 添加 自 定义 的 
Extractor 来 限制 解析 出 来 的 URL, 二 是 扩展 PostProcessor, 对 进入 待 处 理 队列 的 
URL 进行 筛选 处 理 ,防止 无 关 的 链接 进入 队列 。 
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谎 虫 控制 器 
启动 边界 器 


1 URL 的 处 理 器 ， 负 责 分 配 
Bdb 边 界 器 上 ee 一 一 | ”下 一 个 待 处 理 URL 
| 
1 负责 处 理 抓 取 的 一 此 先决 
预 处 理 回 | 个 一 | 限制 条 件 的 判断 
es 
二 小 |。 解析 网 络 传输 协议 
Hn ed 
二 | /用 于 解析 获取 的 返回 内 容 
下 
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后 处 理 程序 上 4 一 一 | 条 件 地 放 入 待 处 理 队 列 中 


图 6.6 Heritrix 工作 流程 


在 对 Heritrix 进行 二 次 开发 后 , 抓 取 HTML 源 代码 ,再 利用 Java 编程 语言 ， 
在 Eclipse 平台 中 将 HTML 语言 的 元 余 字 段 删 除 ,最 终 获 得 互联 网 财经 类 新 闻 文 
本 的 数据 抓 取 ,并 利用 SQL Server 或 其 他 型 数 库存 储 最 终 数据 。 

2. 原始 数据 的 量化 处 理 

在 完成 原始 数据 的 获取 后 ,需要 分 别 对 三 类 数据 进行 量化 处 理 。 进 而 完成 后 
续 数据 进一步 的 处 理 分 析 。 

(1) 股票 价格 时 间 序 列 数据 的 量化 

仅仅 采用 单个 或 几 个 技术 指标 作为 输入 变量 往往 存在 一 定 的 片面 性 ,只 有 通 
过 多 种 技术 指标 的 组 合 输入 才能 提高 预测 模型 对 于 股票 价格 时 间 序 列 的 预测 能 
力 。 同 时 ,考虑 到 预测 需要 抓 住 短期 的 波动 规律 ,因此 ,选取 表 6. 5 中 的 技术 指标 
作为 输入 指标 候选 。 


表 6.5 技术 指标 详 表 


代码 描述 
Xi | 前 一 天 的 开盘 价 

X: | 前 一 天 的 最 高 价 

X， | 前 一 天 的 最 低 价 

X，| 前 一 天 的 收盘 价 

Xs | 前 一 天 的 成 交 额 ( 百 万 ) 

Xe | 前 一 天 的 成 交 量 ( 股 ) 

XX， | BIAS1: 乖 离 率 1 
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sw 


续 表 

代码 描 述 

Xs | BIAS2: 乖 离 率 2 

芝 CCI: 顺势 指标 。TYP :一 ,cc 100, 其 中 ,AVEDEV 
代表 求 平方 绝对 误差 

Xio。 | PDI: 上 升 方向 线 

Xu | MDI: 下 降 方向 线 

和 | ADX 

X | 下 线 ;RSV 的 3 日 移 动 平均 ， RSV 一 生 二 洒 ，100, 其 中 C 为 第 ; 日 收盘 价 ， ,为 日 
内 的 最 低 价 ; ,为 n 日 内 的 最 高 从 

Xi | D 线 : K 值 的 3 日 移动 平均 

Xi | J 线 : 3XD 一 2XK 

了 MACD: 指数 平滑 异同 移动 平均 线 指 标 。MACD= (DIF 一 DEA)/2, DIF 二 EMA3 一 
EMA6, DEA=EMA(DIF, 3) 

Xi | PSY: 心理 线 。PSY=N 日 内 上 涨 天 数 /N * 100 

Xis | RSI: 相对 强 弱 指标 

人 SAR: 停 损 点 转向 指标 。SAR(n) 二 SAR(n 一 1) 十 AF[EP(N 一 1) 一 SAR(N 一 1)]， 
AF 为 加 速 因子 (或 叫 加 速 系 数 ) ,EP 为 极点 价 ( 最 高 价 或 最 低 价 》 

ROC: 变动 速率 。ROC= (今天 的 成 交 均 价 一 N 日 前 的 成 交 均 价 )/N 日 前 的 成 交 均 
价 X100 

Xs | BBI: 多 空 指数 。BBI= (1 日 均 价 十 2 日 均 价 十 3 日 均 价 十 4 日 均 价 ) 二 4 

Xs。 | LWR1: 威廉 指标 实际 上 是 KD 指标 的 补 数 ,100 一 线 K 

Xs | LWR2: 威廉 指标 实际 上 是 KD 指标 的 补 数 ,100 一 线 D 

Xa | DPO: 区 间 震 荡 线 。 收 盘 价 减 收盘 价 的 6 日 均线 在 3 天 前 的 值 

i VROC: 量变 动 速率 指标 。 成 交 量 减 3 日 前 的 成 交 量 ,再 除 以 3 日 前 的 成 交 量 ,放大 1 
倍 , 得 到 VROC 值 

Xzs | DN: 波幅 通道 下 线 。 下 限 一 (收市 移动 平均 价 一 波动 幅度 ) X KK 

X | WR: 威廉 指标 

Nzs | SI: Siswing Index 

Xa。 | MJR: 比较 当天 收市 价 与 昨天 收市 价 的 关系 

Xa | ALF: 过 滤 指 标 

Xs | SMI 


本 指 


(2) 网 络 搜索 热度 数据 量化 
获取 网 络 搜索 词 热度 、 网 络 新 闻 和 与 情 情感 值 强度 和 网 络 新 闻 与 情 数 量 三 个 基 
标 , 构 造 如 表 6. 6 儿 个 输入 指标 作为 新 的 预测 变量 输入 。 
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表 6.6 网 络 和 与 情 指 标 详 表 
代码 描 述 
Xs | 网 络 搜索 词 热度 


网 络 搜索 词 热度 每 日 变化 倾向 。 计 算 方 法 为 计算 相 邻 两 个 时 间 点 之 间 的 网 络 搜索 
词 热度 斜率 


网 络 搜索 词 热度 威廉 指标 。3 日 内 网 络 搜索 词 热度 最 高 值 与 当日 值 之 间 的 差 , 除 以 
3 日 内 最 高 值 与 最 低 值 的 差 


网 络 搜索 词 热度 变动 规则 。 利 用 4 日 内 网 络 搜索 词 热度 变动 和 3 日 内 股票 价格 时 
间 序 列 变动 设立 股票 方向 变动 规则 ,利用 规则 获取 次 日 股票 移动 方向 推测 值 


Xs | 网 络 新 闻 与 情 情感 值 


网 络 新 闻 和 与 情 情感 值 每 日 变化 倾向 。 计 算 方 法 为 计算 相 邻 两 个 时 间 点 之 间 的 网 络 
新 闻 与 情 情 感 值 斜 率 


网 络 新 闻 和 与 情 情感 值 威廉 指标 。3 日 内 网 络 搜索 词 热度 最 高 值 与 当日 值 之 间 的 差 ， 
除 以 3 日 内 最 高 值 与 最 低 值 的 差 


Xs | 网 络 新 闻 与 情 数量 

网 络 新 闻 与 情 数量 每 日 变化 倾向 。 计 算 方法 为 计算 相 邻 两 个 时 间 点 之 间 的 网 络 新 
闻 与 情 数量 斜率 

网 络 新 闻 与 情 数量 威廉 指标 。3 日 内 网 络 新 闻 与 情 数量 最 高 值 与 当日 值 之 间 的 差 ， 
除 以 3 日 内 最 高 值 与 最 低 值 的 差 


(3) 股票 新 闻 和 与 情 信息 数据 的 量化 

互联 网 财经 类 新 闻 文 本 处 理 主要 分 为 两 个 部 分 ,第 一 个 部 分 对 之 前 处 理 过 的 
有 效 文本 信息 进行 分 词 ,第 二 个 部 分 则 是 对 分 词 后 的 内 容 计 算 情感 值 ,用 于 指标 的 
输入 。 

由 于 获取 到 的 文本 信息 是 一 个 连续 的 文本 ,如 果 想 对 其 进行 量化 需要 首先 进 
行 分 词 处 理 。 可 以 采用 上 一 节 中 所 提 到 的 ICTCLAS(Java 64 位 版 ) 对 其 二 次 开发 
实现 。 处 理 过 后 的 金融 信息 文本 想 要 加 入 预测 模型 中 ,必须 得 到 量化 。 而 利用 新 
闻 中 反映 的 信息 强度 可 以 作为 良好 的 对 接口 ,情感 值 的 计算 核心 的 内 容 就 是 为 上 
一 步骤 获得 的 文本 信息 生成 一 个 量化 的 值 。 此 过 程 可 以 使 用 Hownet 对 新 闻 情 感 
值 进行 处 理 。 利 用 在 之 前 获得 的 分 词 结果 ,在 词典 中 进行 匹配 ,确定 各 个 词 的 量化 
值 ,有 了 每 个 词 的 量化 值 后 ,就 可 以 得 到 整个 文本 的 情感 值 。 特 别 地 ,由 于 金融 领 
域 的 特殊 性 ,采用 人 工 方法 对 词典 进行 了 修改 ,基于 路 透 金融 词典 对 Hownet 正 负 
面 词汇 词典 进行 了 修改 ,添加 了 100 个 正面 词汇 和 150 个 负面 词汇 。 
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6.2.3 基于 指标 与 维度 的 数据 优化 


在 金融 股市 预测 的 研究 中 ,如 何 选 取 正确 的 输入 指标 是 问题 的 关键 之 一 ,也 一 
直 是 研究 的 难点 之 一 。 到 现在 选择 哪些 指标 作为 模型 的 输入 是 最 优 方案 都 无 定 
论 , 大 部 分 的 学 者 往往 通过 依靠 历史 经 验 或 者 主观 的 腾 断 进行 决策 ,本 节 采 用 灰色 
关联 度 的 算法 进行 指标 筛选 ,挑选 出 对 预测 模型 的 建立 具有 显著 性 影响 的 指标 。 
同时 ,采用 流 形 算法 对 选取 的 指标 进行 降 维 处 理 , 保 留 原始 数据 的 特征 ,同时 获取 
更 低 维 的 输入 ,进一步 优化 目标 模型 的 预测 能 力 。 

同时 ,在 股票 预测 的 输入 数据 中 ,时 间 序 列 数据 高 噪声 的 特点 严重 影响 着 预测 
效果 。 本 书 引入 了 小 波 变换 降 噪 的 方法 对 股市 时 间 序列 进行 处 理 , 利 用 四 种 小 波 
基 函 数 和 六 种 不 同 的 闵 值 规则 进行 遍历 寻 优 ,具体 数据 的 优化 方法 如 下 文 所 示 。 

1. 基于 灰色 关联 度 理论 选取 输入 变量 

与 预测 值 不 相关 的 变量 可 能 导致 机 器 学 习 算法 效率 的 低下 ,对 最 终 的 预测 结 
果 造 成 负面 的 影响 ,因此 通过 对 输入 特征 向 量 的 选择 ,保留 关联 性 强 的 输入 量 , 删 
除 关联 性 弱 的 输入 量 ,能 够 有 效 提高 机 器 学 习 算法 的 效率 和 性 能 ,基于 以 上 原因 ， 
可 以 考虑 采用 灰色 关联 度 分 析 理 论 首先 分 析 各 输入 变量 与 预测 值 之 间 的 灰色 关联 
度 ,选取 相应 的 输入 变量 进入 下 一 步 的 处 理 。 

(1) 灰色 关联 度 理论 分 析 

在 灰色 关联 度 的 计算 方法 中 ,利用 斜率 求 取 灰 色 关联 度 的 方法 分 辨 率 较 高 ,并 
且 能 够 处 理 数据 中 的 负数 或 零 值 。 基 于 以 上 原因 ,众多 研究 采用 了 灰色 斜率 关联 
度 方 法 ,同样 选取 基于 灰色 斜率 关联 度 ,对 输入 指标 进行 灰色 关联 度 分 析 , 该 方法 
具备 对 原始 序列 进行 无 量 纲 化 数据 变换 时 关联 系数 及 关联 度 的 值 保持 不 变 的 优 
点 ,并 且 分 析 结果 客观 可 靠 。 斜 率 灰色 关联 度 分 析 方 法 的 基本 思想 是 利用 因素 序 
列 曲线 的 平均 相对 变化 情况 的 相似 程度 来 计算 灰色 关联 度 。 具 体 而 言 ,就 是 将 原 
始 数据 连接 成 折线 , 求 出 两 个 相 邻 元 素 之 间 的 斜率 ,利用 斜率 判断 出 曲线 的 增 减 走 
势 。 最 后 将 因素 和 参考 因素 之 间 的 相对 变化 情况 进行 统计 分 析 得 出 灰色 关联 度 。 

(2) 股票 价格 时 间 序 列 影响 因素 的 改进 灰色 关联 分 析 实 现 

如 上 所 述 , 下 面 对 股票 价格 时 间 序列 求 取 灰 色 关联 度 。 处 理 的 对 象 基于 表 6. 5， 
将 Xi 一 Xa 作 为 因素 序列 ,将 次 日 收盘 价 作为 参考 因素 序列 ,基于 斜率 的 改进 灰 度 
关联 法 求 取 关 联 度 大 小 。 

该 算法 的 具体 思想 和 处 理 方法 如 下 。 

@ 初 值 化 处 理 

因素 序列 为 

Xi 一 (Zi(1)，zi(2)，…… zi(2)) i= 1,2,.,m 
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参考 因素 序列 为 
YY 一 (y(1),y(2),，…,y(z)) 工 一 1,2,…，72 
则 因素 序列 和 参考 因素 序列 在 区 间 [k,k 十 1],k 二 1,2,…,n 一 1 上 的 斜率 为 ， 
Azri(k+1)= zi(k+i+1)— zi(k) 
Ay (RE 十 1) 一 y(R 十 1) 一 >(R) 
求 取 因 素 序 列 和 参考 因素 序列 的 均值 为 


求 取 因素 序列 和 参考 因素 序列 的 2 阶 范 数 为 


Minie = min (| 二 ri(k) | ， | Tay(k) | 】 
Ti 了 


Maxik = max 


@ 方向 性 处 理 

由 于 斜率 有 正 负 的 区 别 ,在 实际 的 预测 中 , 同 向 变动 的 因素 序列 能 够 给 预测 带 
来 更 大 的 帮助 ,参考 肖 新 平 设立 的 方向 判别 函数 ,设立 判别 函数 SGN ,SGN 代表 的 
含义 如 下 : 


B40 |,| Sa 0)|) 
Ti 党 


1 ， Ari(R)*Ay(A) 二 0 
SGN(Azxi(k),Ay (k))= | 
一 1 Axri(k)*Ay(k)=0 


利用 SGN 函数 能 够 将 同 向 变化 的 数据 转 为 正 值 , 反 向 变化 的 数据 转 为 正 值 ， 
求 和 时 同 向 变化 居多 的 因素 序列 能 够 得 到 凸显 。 同 时 ,由 于 考虑 因素 序列 的 同 向 
变化 比 曲 线 的 接近 程度 更 重要 ,因此 ,在 计算 时 引入 : 


Miniamn 十 Mini,ea 十 1 
2Maxi.el 十 1 


该 参数 满足 01 一 了 1 <1, 当 斜率 变化 同 向 且 数 值 相同 时 
和 Xik 十 1 


则 该 参数 能 够 保障 7 (4) = 1。 而 斜率 变化 反 向 且 数 值 相同 时 则 该 参数 使 得 
(4) 一 一 1。 当 因素 序列 和 参考 序列 斜率 差距 越 大 时 ,1 一 
越 趋 近 于 0.5,7,() 会 相应 有 效 地 降低 斜率 变化 幅度 对 关联 度 运算 的 影响 。 当 差 
距 越 小 时 则 1 一 > 生生 -Case 1 越 趋 近 于 0, 与 设计 算法 时 斜率 变化 度 越 小 

axit+H1 十 工 
的 灰色 关联 度 越 小 一 致 。 综 上 所 述 , 该 参数 可 用 于 消减 斜率 绝对 值 差 的 影响 ,突出 


1 
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因素 序列 的 变化 方向 性 。 
因素 序列 和 参考 因素 序列 各 斜率 的 灰 度 如 式 (6-15) 所 示 : 
Yi(k)=SGN(Azi(k),Ay (k)) 
1 


关 


1+ (一生 11ay(9| 一 An(o11l 
(6-15) 
因素 序列 和 参考 因素 序列 的 总 灰 度 如 式 (6-16) 所 示 
ml 
%== > y:(k) (6-16) 
k=1 
从 Yi;(k) 的 定义 可 以 看 出 ,y;(k) 具 有 如 下 几 点 性 质 : 


。 |7(k)|<1, 

。 其 对 称 性 、 唯 一 性 、 可 比 性 。 

。 yi(k) 突 出 因素 序列 方向 性 的 作用 ,变化 同步 越 高 , 则 灰 度 值 越 大 ,反之 则 

越 小 。 

方法 的 具体 实现 可 以 利用 MATLAB 软件 ,计算 得 到 各 输入 变量 和 参考 因素 
之 间 的 灰色 关联 度 , 利 用 灰色 关联 度 大 小 进行 筛选 ,剔除 值 过 小 和 值 为 负数 的 情 
况 ,得 到 的 新 的 输入 变量 序列 。 

2. 流 形 算法 数据 降 维 

数据 降 维 是 数据 挖掘 研究 中 非常 重要 的 一 种 工具 和 方法 ,其 目的 在 于 发 据 高 
维 数据 中 隐藏 的 内 在 结构 ,从 而 促使 基于 高 维 数据 的 分 类 可视化 和 压缩 得 以 更 好 
地 运行 。 如 上 文 所 述 ,在 针对 时 间 序 列 的 数据 挖掘 中 ,降低 输入 向 量 的 维 数 是 一 个 
重要 也 是 必 备 的 处 理 过 程 , 因 此 ,本 书 将 引入 流 形 理论 作为 对 输入 特征 约 简 的 处 理 
手段 。 

(1) 流 形 学 习 理 论 

从 数学 意义 上 定义 流 形 学 习 。 给 定数 据 集 X=(zi,ze,…'z)CR2 ,假设 
中 的 元 素 可 以 通过 低 维 空间 中 的 集合 Y 利用 某 种 非 线性 变化 f 得 到 , 即 x; 二 f(y;)， 
其 中 了 = (yy ww)CR4 deD,F:Y 一 R2 是 一 个 光滑 的 嵌入 映射 。 流 形 学 习 
的 目的 就 在 于 给 出 基于 数据 集合 X 的 非 线性 映射 广 : :R?~~R“ ,获取 这 个 高 维 空间 
到 低 维 空间 的 映射 结果 Y。 

具体 而 言 ,数据 降 维 就 是 通过 线性 或 非 线 性 的 函数 映射 ,将 数据 从 高 维 空间 映 
射 到 低 维 空间 中 ,因而 ,数据 降 维 方法 可 以 分 成 两 类 : 线性 降 维 方法 和 非 线 性 降 维 
方法 ,其 中 , 非 线 性 降 维 方法 就 是 通常 所 说 的 流 形 学 习 方法 。 具体 情 况 如 表 6. 7 
所 示 。 

在 表 6.7 中 , 主 成 分 分 析 法 (PCA) 是 使 用 最 为 广泛 的 线性 降 维 方法 ,其 基本 思 
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想 是 在 标准 正 交 变换 基础 上 方差 较 大 的 维 视 为 主 成 分 ,其 余 为 噪声 。 其 优点 在 于 

具有 最 优 线性 重 构 误差 ,但 是 存在 明显 的 缺点 , 主 成 分 个 数 的 确定 没有 明确 的 标 

准 , 同 时 不 能 用 于 处 理 非 线 性 数据 。 同 样 地 ,线性 判别 分 析 和 主 成 分 分 析 十 分 类 

似 , 不 过 其 主要 针对 分 类 问题 ,是 一 种 监督 方法 ,并 不 适用 于 处 理 较为 复杂 的 问题 。 
表 6.7 数据 降 维 方法 一 览 表 


主 成 分 分 析 (PCA) 
线性 方法 
线性 判别 分 析 (LDA) 
局 部 线性 说 入 (LLE) 
全 ( i Pi S) 
保留 局 部 性 质 邻接 图 aa igenmaps 
非 线性 方法 Hessian 特征 映射 (HE) 
| 局 部 切 空间 排列 (LTSA) 
等 距 流 形 映射 (Isomap) 
Wn 多 维 尺度 变换 (MDS) 


由 于 现实 生活 中 的 数据 往往 呈现 高 度 的 非 线性 结构 ,基于 线性 的 方法 存在 局 
限 性 ,无 法 揭示 数据 中 复杂 的 真实 规律 ,因此 ,基于 非 线性 的 降 维 方法 逐渐 在 数据 
挖掘 领域 轨 露 头角 。 

在 流 形 学 习 领 域 ,2000 年 Tenenbaum 等 和 Roweis 等 学 者 在 Seienee 同时 发 
表 的 两 篇 流 形 学 习 的 文章 ,分 别提 出 了 等 距 流 形 映 射 (Isomap) 和 局 部 线性 嵌入 
(CLLE) 算 法 。LLE 算法 利用 构造 样本 中 各 元 素 和 它 的 邻 域 元 素 之 间 的 一 个 重 构 权 
向 量 , 将 高 维 数据 映射 到 一 个 全 局 低 维 坐 标 系 中 ,保持 邻 域 间 的 权 值 大 小 不 变 , 这 
样 的 处 理 方法 能 够 保留 相 邻 点 之 间 的 集合 结构 ,不仅 能 够 有 效 地 挖掘 现 有 数据 的 
非 线 性 结构 ,同时 保留 了 数据 的 平移 、 旋 转 等 不 变 特性 。Isomap 是 基于 多 维 尺度 
分 析 (MDS) 的 一 种 方法 , 它 将 样本 中 各 元 素 和 它 的 邻 域 元 素 之 间 的 测 地 距离 以 两 
点 之 间 的 欧 氏 距离 取代 ,而 样本 中 各 元 素 和 邻 域 外 的 元 素 之 间 的 测 地 距离 则 用 流 
形 上 两 点 之 间 的 最 短路 径 来 替换 ,这 样 能 够 更 好 地 全 局 保留 现 有 数据 的 几何 结构 。 
在 此 之 后 , 流 形 学 习 成 为 新 的 研究 热点 ,并 获得 了 很 大 的 发 展 。 由 于 Isomap 能 够 
保持 数据 全 局 性 质 ,很 多 学 者 利用 Isomap 算法 对 复杂 的 经 济 背景 下 的 属性 进行 了 
约 简 等 处 理 ,在 对 CSI300 股票 聚 类 分 类 和 对 公司 信用 评价 等 具体 问题 取得 了 良好 
的 效果 ,因此 ,本 书 引入 Isomap 算法 对 股票 价格 时 间 序 列 进行 降 维 处 理 , 以 期 降 维 
后 的 新 输入 能 够 提高 回归 预测 模型 的 精确 度 。 

(2) 等 距 流 形 映射 (Isomap) 算 法 

Q@ 构建 邻 域 权重 赋值 图 G 

设 定 输入 样本 为 二 (x1 ,zs，,… ,zx, )CCR? ,构建 图 G 包含 所 有 样本 点 。 计 算 
X 中 的 每 个 样本 点 x: 和 其 余 点 之 间 的 欧 氏 距离 dz (i,) ,如果 dx(i, 丫 小 于 域 值 
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或 j 是 i 最 近 的 开 个 点 之 一 时 ,可 以 认为 它们 是 相 邻 的 ,此 时 设 定 图 有 边 xixj; , 设 
定 其 权 值 为 dx(i,j)。 

@ 计算 最 短路 径 

如 果 点 i 和 点 j 之 间 有 边 , 则 设 定 其 初始 最 短 距 离 dg (i,j) 二 dzGi7, 若 不 存 
在 边 , 则 设 定 dg(i,7) 为 正 无 穷 。 设 定 /=1,2,*…,n,dg(i,j) 二 min{ dg (i,j)， 
dg(i,l) 十 dg(1, 站 }) ,利用 迪 杰 斯 特 拉 算 法 构建 最 短路 径 和 矩阵 , 设 定 Ds 二 {d? (i,j))， 
和 矩阵 包含 了 图 G 中 任意 两 点 i\j 之 间 的 最 短 距 离 的 平方 。 
@ 计算 m 维和 让 入 


将 MDS 应 用 于 矩阵 Dg, 记 S= {5(i,j)}= ac |] .其中 SS= 
0 iz¥j 
1 i=j" 


站 三 


假设 入 ,4;，,… ,4 是 矩阵 互 的 最 大 的 m 个 特征 值 ,wo ， us,… ,us 是 其 对 应 的 
特征 向 量 ,U=[a werouwj, 则 T= 二 diag( 定 ,三 ,…, 奔 ) ,UT 即 为 m 维 赂 入 结果 。 

(3) Isomap 算法 实现 

Isomap 算法 可 以 基于 MATLAB 实现 。 从 算法 的 具体 实现 中 可 以 看 出 ,和 
Isomap 算法 降 维 效果 息息相关 的 有 两 个 变量 ,一 个 是 降 维 后 保留 的 维 数 mr, 男 一 
个 是 选择 邻 域 点 K 的 大 小 。 以 下 对 两 个 参数 的 选取 优化 进行 分 析 。 

邻 域 点 K 如 果 过 小 ,会 产生 将 连续 的 流 形 划分 为 不 相交 的 子 流 形 的 错误 ,对 
于 全 局 性 质 的 保留 作用 将 会 丧失 ,体现 在 结果 上 则 表现 为 降 维 后 数据 点 的 丢失 ,但 
是 如 果 K 值 太 大 ,又 会 把 整个 数据 集 都 变 成 局 部 邻 域 。 一 般 而 言 ,K 值 的 选取 是 
根据 主观 确定 的 。 可 以 利用 增 量 的 方法 对 K 值 进行 检验 ,选取 实验 中 能 够 保证 对 
数据 进行 降 维 后 不 产生 数据 点 丢失 的 值 。 

对 于 m 值 的 选取 ,根据 先前 学 者 的 研究 ,组 入 的 维 数 mm 应 该 满足 限制 条 件 1 过 
mmsax 二 logs LNJ, 其 中 ,NN 是 样本 容量 ,利用 增 量 式 自 寻 优 的 方法 对 m 值 进行 最 
优化 选择 ,对 于 最 优化 的 选取 标准 是 利用 Isomap 降 维 后 的 输入 进行 预测 时 均 方 误 
差 较 小 者 为 优 。 

3. 基于 小 波 变换 的 阔 值 去 噪 方法 

在 对 股票 价格 时 间 序列 的 研究 中 ,由 于 股票 价格 时 间 序 列 具 有 不 平稳 .长 尾 
性 、 含 噪声 等 特点 ,使 得 许多 传统 的 时 间 序 列 预测 模型 效果 不 好 。 故 采用 小 波 变 化 
去 噪 的 方法 消除 股票 价格 时 间 序 列 中 的 噪音 ,由 此 提高 预测 模型 的 性 能 。 小 波 变 
换 的 降 品 过程 主要 可 以 分 为 如 下 三 步 。 

。 小 波 分 解 : 选择 小 波 基 函数 以 及 确定 适当 的 分 解 层 数 N 对 原始 信号 进行 
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分 解 ,得 到 低频 系数 (不 含 噪声 ) 和 含 噪声 的 高 频 系 数 。 
。 阔 值 降 噪 : 设 定 适 当 的 阔 值 函数 和 规则 ,对 各 层 的 小 波 系数 进行 降 噪 处 理 。 
。 信号 重 构 : 将 处 理 得 到 的 高 频 系数 与 低频 系数 进行 逆 变 换 重 构 , 即 得 到 去 
噪 的 目标 信号 。 
以 沪 深 300 指数 时 间 序 列 为 例 , 对 小 波 消 噪 进行 实证 分 析 。 从 以 下 几 个 研究 
方面 分 别 进行 了 实现 。 
(1) 小 波 分 解 
X 为 原始 数据 信和 号, N 为 分 解 层 数 ,wname 为 小 波 基 范 数 ,采用 的 小 波 基 函数 
为 四 种 bior2. 2 .symN .dbN 和 haar, 其 中 N 代表 消失 矩 ,采用 db6 和 sym6,[c, 
是 X 的 小 波 分 解 结构 ,c 由 [ca;，cdi，cds，…，cdwj 组 成 ,/ 则 存储 了 各 和 矩阵 的 长 
度 ,分 解 函 数 如 下 : 
[c, 1] = wavedec(X, N,wname) 
获得 各 个 尺度 的 细节 系数 的 具体 函数 如 下 : 
Ledis odss eds = deteoef(e, 1; [1， 2; 31) 
其 中 ,cdi、cds cds 存储 了 各 个 分 解 层次 的 高 频 尺度 系数 。 
cas = appcoef(c, 1, wname, 3) 


cas 存储 了 低频 系数 。 


(2) 阔 值 的 获取 
获得 各 序数 矩阵 之 后 ,进行 对 阔 值 的 计算 。 首 先 引 入 默认 阔 值 的 获取 方法 ,其 
函数 为 ddencmp ,调用 方式 为 : 


[THR, SORH, KEEPAPP] = ddencmp('den', 'wv', X) 
其 中 返回 值 THR 表示 计算 得 出 的 阔 值 ,SORH 表示 选择 的 阀 值 类 型 ,分 为 软 阔 值 
(s) 和 硬 国 值 (1) 两 种 ,KEEPAPP 表示 存储 的 低频 信号 den 表示 进行 消 噪 处 理 , wv 
表示 选择 小 波 基 函 数 ,X 表示 原始 信号 。 

运用 theselect, 根 据 不 同 的 靖 值 选择 规则 (CTPTR) 来 计算 确定 信号 X 的 阅 值 ， 
具体 示例 如 下 : 
THR = thselect(X, TPTR) 
特别 地 ,引入 小 波 方差 分 解 软 国 值 规则 (WVDSTR) 


4 
= bai 
i 一 和 


Median(| Cl |) 
人 0. 6745 


其 中 ,ce 代表 利用 小 波 方差 估计 的 噪声 方差 ,ri 、r; 分 别 代 表 第 一 、 第 二 层 小 波 系数 
的 方差 ,Median(|Ci,; | ) 代 表 第 一 层 小 波 系数 的 中 位 数 。 当 ri 二 rs 时 采用 第 一 种 
方法 进行 估计 ,ni 二 rs 时 采用 第 二 种 方法 进行 估计 。 
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各 层 噪声 标准 差 为 式 (6-16) : 
i= [2 


如 果 阔 值 过 大 容易 造成 信号 的 失真 ,在 综合 考虑 信号 的 预测 能 力 后 , 取 各 层 阔 
值 的 定义 为 式 (6-7) : 


S| 
中 


THR; 一 2* 7 * [一 


(3) 阔 值 去 噪 实现 和 小 波 重 构 
该 部 分 的 实现 利用 函数 wdencmp 进行 ,具体 操作 方式 如 下 : 
[XC, CXC, LXC, PERFO0, PERFL2] 
= wdencmp('lvd', c, l, wname, N, THR, 'SORH') 

其 中 ,目标 值 XC 就 是 所 需 经 过 消 噪 后 重 构 的 信号 ,lvd 则 代表 各 层 系数 使 用 不 同 
的 国 值 进 行 去 噪 ,N 代表 的 含义 如 前 ,依然 是 小 波 分 解 的 层 数 ,THR 为 确定 的 阔 值 序 
列 , 特 别 地 ,THR 矩阵 的 次 数 等 于 N,PERF0 表示 压缩 率 ,PERFL2 代表 信号 质量 。 

(4) 去 噪 结构 选择 

如 上 文 所 述 ,在 相同 变量 环境 下 采取 的 评价 标准 为 信 噪 比 和 原始 信号 与 去 品 
信号 之 间 的 标准 差 , 信 噪 比 越 大 越 好 ,标准 差 越 小 越 好 。 在 不 同 变量 环境 下 ,将 压 
缩 率 和 信和 号 质量 也 列 人 考查 范围 , 若 出 现 压缩 率 过 小 的 情况 则 排除 该 方法 。 评 价 
时 先 于 同一 层次 同一 国 值 不 同 小 波 函 数 之 间 选 优 , 青 选取 较 优 解 进行 比较 ,最 终 选 
取 最 优 解 。 

(5) 小 波 变换 去 品 效 果 评 价 规 则 

一 般 而 言 ,小 波 变 换 去 品 效 果 评 价 规 则 取决 于 以 下 两 点 。 

去 品 后 得 到 的 信号 应 该 和 原始 信号 保有 同等 的 光滑 性 ,平滑 度 指标 越 小 ,去 噪 
的 效果 就 越 好 。 

去 噪 后 得 到 的 信号 和 原始 信号 的 信 噪 比 越 大 ,表明 去 噪 效果 越 好 ; 标准 差 越 
小 ,去 噪 效 果 越 好 。 


6.2.4 金融 预测 模型 及 评价 指标 


1. 金融 预测 模型 

当今 ,应 用 于 股票 预测 的 方法 各 种 各 样 ,主要 涉及 了 局 域 的 预测 模型 ,全 局 的 
预测 模型 以 及 非 线 性 方法 等 。 其 中 ,比较 常用 的 方法 有 投资 分 析 法 .传统 时 间 序 列 
模型 和 机 器 学 习 方 法 等 。 这 几 年 伴随 着 机 器 学 习 方 法 的 快速 发 展 ,很 多 机 器 学 习 
技术 被 应 用 到 金融 时 间 序 列 的 预测 中 。 本 书 重点 介绍 预测 模型 中 较为 典型 的 三 种 
方法 : 自 回 归 和 移动 平均 (ARMA) 模 型 .BP 神经 网 络 模型 (BPNN)、 利 用 遗传 算 
法 优化 参数 的 SVM 算法 (GA-SVM 模型 ) .分 别 对 已 处 理 的 数据 进行 了 预测 。 本 
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节 将 ARMA 模型 .BPNN 模型 GA-SVM 模型 三 者 的 实验 结果 进行 分 析 对 比 。 

此 外 ,本 文 的 预测 模型 是 基于 时 间 窗 口 L, 以 SVM 算法 为 例 , 在 时 间 窗 口 工 的 
时 间 范 围 内 的 数据 作为 训练 集 .L 十 1 天 的 数据 集 作为 测试 集 ,利用 基于 遗传 算法 
优化 参数 的 支持 向 量 机 进行 回归 预测 。 预 测 模型 中 时 间 窗 口 L 是 一 个 变量 ， 
3 三 L 志 10. 。 由 于 二 范围 的 确定 没有 一 个 统一 的 标准 ,根据 前 人 研究 ,L 的 最 大 取 
值 限定 为 10 ,而 考虑 到 工 过 小 会 导致 训练 模型 不 理想 ,因此 限定 最 小 值 为 3。 再 对 
进行 增 量 计算 ,获取 不 同 的 工 下 的 输出 。 输 出 则 是 次 日 收盘 价 。 通 过 比较 不 同 
时 间 窗 口 工 的 评价 指标 的 优 劣 ,最 终 试验 结果 取 最 优 L 下 的 各 项 实验 结果 。 

(1) 利用 遗传 算法 优化 参数 的 SVM 算法 

SVM 是 这 几 年 来 发 展 最 快 的 机 器 学 习 方法 之 一 ,并 且 它 已 经 被 众多 学 者 有 效 
地 运用 于 时 间 序 列 预 测 领域 。 尽 管 SVM 已 经 在 完成 的 研究 中 表现 了 较 好 的 预测 
性 能 ,但 是 它 的 预测 性 能 和 泛 化 能 力 经 常会 受到 股票 价格 时 间 序 列 噪声 和 输入 特 
征 的 影响 ,输入 特征 的 高 维度 提高 了 预测 模型 的 计算 成 本 和 过 拟 合 的 风险 。 在 实 
践 中 ,SVM 能 够 有 效 地 解决 小 样本 、 非 线性 问题 和 高 维 模式 识别 问题 。 在 股票 价 
格 预测 的 应 用 中 ,合理 的 输入 特征 和 平稳 的 时 间 序 列 将 会 给 预测 准确 性 的 提高 带 
来 良好 的 影响 。 

本 部 分 的 内 容 主 要 包括 了 利用 SVM 进行 预测 时 的 输入 、 输 出 、 参 数 选择 、 预 
测 性 能 评价 指标 的 选择 等 。 输 入 是 基于 之 前 利用 灰色 关联 度 分 析 、isomap 降 维和 
小 波 变换 去 噪 后 确定 预测 模型 的 输入 向 量 ,时间 窗口 二 是 一 个 变量 ,3 之 L 之 10， 
对 工 进行 增 量 的 计算 ,获取 不 同上 下 的 输出 。 输 出 则 是 预测 的 次 日 收盘 价 。 特 别 
地 ,由 于 不 同 的 核 函数 对 于 SVM 的 预测 性 能 影响 较 大 ,根据 之 前 的 研究 , 径 向 基 
函数 在 股票 价格 时 间 序 列 的 问题 求解 中 能 够 得 到 较 好 的 预测 性 能 ,因此 可 以 选取 
径 向 基 函 数 作为 SVM 核 函数 。 在 运用 SVM 进行 回归 预测 时 需要 确定 惩罚 参数 
C 和 不 敏感 损失 函数 。。 利 用 遗传 算法 (Genetic Algorithm) 求 解 SVM 最 优 参数 ， 
利用 二 者 结合 的 GA-SVM 模型 求解 回归 问题 。 

GA-SVM 的 预测 评价 指标 最 优 表现 如 表 6. 8 所 示 。 

表 6.8 利用 GA-SVM 预测 评价 指标 最 优 性 能 指标 表 


指标 RMSE MAE MAPE TIC 
指数 30.73552 22. 96137 0. 009472 0. 006319 
银行 业 23. 3692 16. 741 0. 00822 0. 00579 
民生 银行 9. 24068 6. 47154 0. 01052 0. 00760 
兴业 银行 20. 8688 14. 0246 0. 01038 0. 00787 
招商 银行 16. 1554 11. 2530 0. 00986 0. 00715 
中 信和 银行 5. 2621 3. 9153 0. 00976 0. 00659 


面向 社会 化 媒体 大 数据 的 社会 计算 


(2) 自 回归 和 移动 平均 (ARMA) 模 型 

ARMA 是 一 种 自 回归 和 移动 平均 模型 ,利用 变量 的 历史 数据 进行 对 未 来 的 预 
测 。ARMA 模型 一 般 需 要 考虑 两 个 参数 p 和 9g ,其 中 p 表示 自我 回归 阶 数 ,gq 表示 
移动 平均 阶 数 , 模 型 可 表示 为 ARMA(p, gq)。 在 实际 应 用 中 ,参数 的 确定 一 般 按 
照 AIC 准则 , 即 赤 池 信 息 准则 ,该 项 指标 数值 越 小 ,说 明 模 型 的 拟 合 程度 越 好 。 

利用 MATLAB 实现 ARMA 模型 ,其 中 设 定 移动 预测 步 数 为 1, 时 间 窗 口 由 
4 至 10 变动 ,p 和 g 的 变动 范围 设置 为 1 一 2, 若 pg 过 大 会 产生 无 法 生成 模型 的 
后 果 , 得 到 的 最 优 求解 结果 如 表 6.9 所 示 。 

(3) BP 神经 网 络 

人 工 智能 算法 Back Propagation(BP) 神 经 网 络 是 一 种 机 器 学 习 方法 ,根据 
Kolmogorov 定理 ,已 知 三 层 BP 神经 网 络 能 够 在 任意 误差 内 到 近 任意 连续 函数 ， 
因此 书 中 采用 三 层 BP 网 络 模型 。 三 层 BP 神经 网 络 包 含 了 输入 层 、 隐 层 和 输出 
层 。 其 中 ,输入 层 的 神经 元 个 数 为 41 个 ,和 输入 维度 持平 。 隐 层 结 点 数 没有 固定 
的 取 值 标准 ,因此 设 定 隐 结 点 数量 为 1 一 15 之 间 , 利 用 增 量 的 方法 对 模型 进行 测 
试 , 以 预测 结果 和 实际 值 的 均 方 误差 为 评价 标准 ,选择 最 优 的 隐 结 点 数量 。 以 沪 深 
300 指数 为 例 , 其 中 RMSE 指标 随 隐 结 点 变动 的 情况 如 图 6.7 所 示 。 


表 6.9 利用 ARMA 预测 最 优 性 能 指标 表 


指标 RMSE MAE MAPE TIC 
指数 46.04093989 | 36.08553022 | 0.014882903 0.009462474 
银行 业 38. 42965 28. 39847 0. 01405 0. 0095 
民生 银行 15. 14437 10. 38291 0.01653 0. 012401 
兴业 银行 34. 81213 22. 6069 0.016678 0.013191 
招商 银行 24. 91968 18. 4991 0.016572 0.0112 
中 信和 银行 7. 36803 5. 69348 0.01421 0. 00922 


图 6.7 RMSE 指标 随 隐 结 点 数量 变化 值 
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因此 ,选取 的 隐 结 点 数 为 1。BP 神经 网 络 的 预测 评价 指标 最 优 表现 如 表 6. 10 
所 示 。 


表 6.10 利用 BP 神经 网 络 预测 评价 最 优 性 能 指标 表 


指标 RMSE MAE MAPE TIC 
指数 42. 3965234 33. 03305742 0. 013633222 0. 008724103 
银行 业 33. 7569 24. 3393 0. 01199 0. 00836 
民生 银行 13. 2287 9. 3899 0. 01512 0. 01089 
兴业 银行 29. 9424 21. 1707 0. 01566 0. 01129 
招商 银行 23. 2052 16. 2868 0.0144 0. 01028 
中 信和 银行 7.16068 5. 53374 0. 01385 0. 00896 


综 上 所 述 , 对 时 间 序 列 预测 研究 中 常用 的 ARMA 模型 .BP 神经 网 络 及 GA- 
SVM 算法 模型 预测 的 最 优 性 能 指标 对 比 得 出 ,基于 遗传 算法 求解 SVM 最 优 参数 
的 GA-SVM 模型 在 预测 中 表现 最 为 理想 。 

2. 预测 评价 指标 分 析 

选取 以 下 四 种 性 能 指标 用 于 对 预测 结果 的 检验 ,假设 PY 是 根据 预测 模型 得 
到 的 预测 结果 ,Y; 是 对 应 的 真实 数据 ,四 种 评价 指标 定义 如 下 : 

(1) 平均 绝对 误差 (Mean Absolute Error, MAE) 


N 
MAE= 19) | PY,—Y,| 
N i=1 
(2) 平均 绝对 误差 百分比 (Mean Absolute Percent Error, MAPE) 
N 
,1 PY —Y, 
MAPE 一 方 忆 | 一 所 


(3) 均 方 根 误差 (Root Mean Square Error, RMSE) 


N 
RMSE = Dp (PY;—Y;)’ 
“ i=]1 


(4) 希 尔 不 等 系数 (Theil Inequality Coefficient, TIC) 


N 
LD) cpy,—Y,)’ 
N i=1 


总 而 言 之 ,以 上 四 个 指标 中 ,RMSE 和 MAE 用 于 衡量 预测 值 和 原始 值 之 间 的 
误差 大 小 ,评价 的 标准 应 是 越 小 越 好 。 而 MAPE 和 TIC 一 般 用 于 衡量 误差 差别 的 
程度 ,其 二 者 的 值 均 位 于 0 和 1 之 间 ,评价 的 标准 是 越 接 近 0 越 好 。 如 果 出 现 结果 
相 冲 突 的 情况 , 则 采用 RMSE 最 低 者 为 最 优 。 
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6.3 个 性 化 服务 


在 过 去 的 几 年 中 , 随 着 互联 网 的 普及 和 计算 机 性 能 的 飞速 发 展 , 计 算 机 技术 ， 
尤其 是 社会 计算 和 云 计 算 也 随 之 有 了 长 足 的 进步 。 个 性 化 推荐 (Recommendation) 技 
术 ,之 前 被 广泛 应 用 于 电子 商务 网 站 ,也 渐渐 地 开始 在 社交 网 络 上 面 细 露头 角 。 

但 是 纵 观 各 种 类 型 的 社交 网 站 ,无 论 是 Facebook 式 的 人 人 网 ,还 是 Twitter 
式 的 新 浪 微 博 ,无 论 是 在 推荐 的 项 目 或 者 推荐 的 形式 上 面 ,都 远 远 没有 达到 传统 电 
子 商 务 网 站 的 高 度 。 而 反观 需求 方面 ,用 户 登 录 到 社交 网 站 ,首先 ,好 友 推 荐 ,而 在 
好 友 推 荐 这 一 块 ,明显 功能 不 够 强大 ,系统 其 至 只 能 通过 基于 用 户 基 本 信息 的 固定 
算法 来 推荐 ; 其 次 ,新 鲜 事 推荐 ,在 我 的 众多 好 友 中 ,一 定 有 些 人 的 新 鲜 事 是 我 最 
愿意 看 到 的 ,在 众多 言论 中 ,一 定 有 一 些 特定 方面 的 信息 是 我 所 关注 的 ,而 在 这 一 
块 ,这 些 网 站 还 基本 处 于 真空 阶段 。 

下 面 将 介绍 社交 网 站 以 及 传统 电子 商务 网 站 的 个 性 化 服务 现状 ,以 及 用 到 的 
相关 技术 ,最 后 会 详细 讨论 一 种 实时 的 推荐 算法 。 


6.3.1 国内 社交 网 站 推荐 系统 的 发 展现 状 


1. 人 人 网 

人 人 网 是 由 千 橡 集 团 对 旗下 著名 的 校内 网 更 名 而 来 的 。 人 人 网 为 整个 中 国 互 
联网 用 户 提供 服务 的 SNS 社交 网 站 ,给 不 同 身份 的 人 提供 了 一 个 互动 交流 平台 ， 
提高 用 户 之 间 的 交流 效率 ,通过 提供 发 布 日 志保 存 相 册 、 音 乐 视频 等 站 内 外 资源 
分 享 等 功能 搭建 了 一 个 功能 丰富 高 效 的 用 户 交流 互动 平台 。 

而 人 人 网 的 推荐 主要 有 三 个 方面 ,第 一 是 广告 和 应 用 推荐 ,这 一 块 跟 人 人 网 商 
业 运 作 模式 有 关 , 基 本 为 广告 ,不 在 本 书 讨论 范围 之 内 ; 第 二 就 是 好 友 推 荐 ,用 过 
之 后 很 容易 发 现 ,这 个 推荐 仅仅 简单 地 基于 共同 好 友和 个 人 基本 信息 , 按 降 序 排列 
之 后 直接 呈现 给 用 户 ; 第 三 是 新 鲜 事 推荐 ,其 实 还 仅仅 是 一 个 雏形 ,甚至 连 推荐 都 
没有 ,需要 用 户 自己 手动 设置 特别 关注 好 友 来 实现 (如 图 6. 8 所 示 ) 。 

2. 新 浪 微 博 

新 浪 微 博 是 一 个 由 新 浪 网 推出 ,提供 微型 博客 服务 的 类 Twitter 网 站 。 用 户 
可 以 通过 网 页 、WAP 页 面 、 手 机 短信 /彩信 发 布 消息 或 上 传 图 片 。 新 浪 可 以 把 微 博 
理解 为 “微型 博客 ”或 者 "一句 话 博客 ”"。 您 可 以 将 您 看 到 的 、 听 到 的 、 想 到 的 事情 写 
成 一 句 话 ,或 发 一 张 图 片 ,通过 计算 机 或 者 手机 随时 随地 分 享 给 朋友 。 您 的 朋友 可 
以 第 一 时 间 看 到 你 发 表 的 信息 ,随时 和 您 一 起 分 享 、 讨 论 。 您 还 可 以 关注 您 的 朋 
友 , 即 时 看 到 朋友 们 发 布 的 信息 。 
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| 王 蓉 
地 加 为 好 友 
中 查看 资料 (44 个 共同 好 友 ) 
站 国 李 要 郑 
小 加 为 好 友 
ES 查看 资料 (44 个 共同 好 友 ) 
声 委 者 6]o 失 
中 加 为 好 友 
查看 资料 (46 个 共同 好 友 ) 


图 6.8 人 人 网 好 友 推荐 示例 图 


新 浪 微 博 提 供 的 推荐 服务 则 主要 是 围绕 好 友 展 开 的 ,显然 ,相对 于 人 人 网 的 基 
本 级 别 的 推荐 ,新 浪 微 博 又 要 进 了 一 步 ,第 一 ,新 浪 微 博 可 以 直接 从 注册 邮箱 的 联 
系 人 中 帮 你 找寻 好 友 ( 如 图 6. 9 所 示 ), 第 二 ,也 是 最 关键 的 一 点 ,可 以 通过 设置 标 
签 来 让 系统 推荐 拥有 相同 标签 的 好 友 , 这 一 点 ,相对 人 人 网 来 说 ,无 疑 是 一 个 巨大 


可 能 感 兴趣 的 人 
Antares_dada 
二 加 关注 
可 能 是 邮箱 联系 人 


想 找 更 多 朋友 ， 你 可 以 
“添加 头像 
能 够 得 到 更 多 关注 、 回 复 响 


， 添 加 标签 
过 到 标签 相同 的 人 ， 握 个 手 吧 


图 6.9 新 浪 微 博 好 友 推 荐 示例 图 


再 来 看 看 传统 的 电子 商务 网 站 的 推荐 系统 , 当 用 户 买 了 一 本 书 之 后 ,会 向 你 推 
荐 其 他 的 书籍 ,有 基于 协同 过 滤 的 (如 图 6. 10 所 示 ) ,有 基于 用 户 行 为 的 (如 图 6. 11 
所 示 ) ,还 有 基于 商品 基本 属性 的 ,不 论 是 规模 或 是 功能 ,都 远 远 超过 了 社交 网 站 的 
推荐 系统 ,真正 做 到 了 "推荐 用 户 真正 关注 的 东西 ”。 

总 地 来 说 ,现在 国内 这 些 社交 网 站 的 推荐 系统 处 于 “ 聊 胜 于 无 ”的 状态 ,有 简单 
的 功能 或 者 是 模块 ,但 是 同 传统 电子 商务 网 站 的 复杂 推荐 系统 相 比 , 则 没有 处 于 同 
一 个 高 度 。 这 就 给 了 我 们 一 个 研究 的 课题 : 如 何 将 传统 电子 商务 网 站 的 这 些 推 荐 
技术 融合 到 新 兴 的 社交 网 站 中 ,让 以 人 为 本 的 思想 贯彻 到 底 ,关于 这 一 点 ,将 在 后 
面 的 篇 幅 中 阑 明 我 们 的 观点 和 方法 。 
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6.3.2 推荐 的 相关 技术 


1. 协同 过 滤 

常用 在 电子 商务 的 推荐 系统 里 。 

协同 过 滤 推荐 (Collaborative Filtering Recommendation) 在 信息 过 滤 和 信息 
系统 中 正 迅 速成 为 一 项 很 受 欢迎 的 技术 。 与 传统 的 基于 内 容 过 滤 直 接 分 析 内 容 进 
行 推荐 不 同 ,协同 过 滤 分 析 用 户 兴 趣 ,在 用 户 群 中 找到 指定 用 户 的 相似 (兴趣 ) 用 
户 ,综合 这 些 相似 用 户 对 某 一 信息 的 评价 ,形成 系统 对 该 指定 用 户 对 此 信息 的 喜好 
程度 预测 。 

协同 过 滤 相对 于 传统 的 文本 过 滤 , 有 一 定 优势 ,也 有 一 些 上 劣势。 优势 在 于 它 能 
过 滤 一 些 难 以 对 内 容 进 行 分 析 或 者 难以 表达 的 东西 (例如 图 片 , 音 乐 , 质 量 等 ), 同 
时 能 使 推荐 变 得 有 新 颖 性 。 缺 点 也 是 明显 的 ,由 于 用 户 对 客体 的 评价 非常 稀 玻 , 信 
息 有 限 ,使 得 结果 可 能 不 够 精确 , 随 着 用 户 和 客体 的 增多 ,系统 效率 会 降低 ,同时 ， 
很 有 可 能 漏 掉 一 些 东西 ,使 其 永远 得 不 到 推荐 。 

协同 过 滤 可 以 分 为 两 种 ,基于 用 户 的 或 者 是 基于 项 目的 。 

它 一 般 采 用 最 近邻 技术 ,利用 用 户 的 历史 喜好 信息 计算 用 户 之 间 的 距离 ,然后 
利用 目标 用 户 的 “最 近邻 居 ” 对 商品 评价 的 加 权 评 价值 来 预测 目标 用 户 对 特定 商品 
的 喜好 程度 ,系统 从 而 根据 这 一 喜好 程度 来 对 目标 用 户 进行 推荐 。 

首先 假设 找到 和 此 用 户 有 相似 兴趣 的 其 他 用 户 , 则 会 对 找到 这 个 用 户 真 正 感 
兴趣 的 内 容 有 一 定 帮 助 。 所 以 ,协同 过 滤 的 一 般 步 骤 为 : 交易 数据 库 一 测量 用 户 
间 相 似 性 一 寻找 相似 用 户 一 计算 商品 的 购买 可 能 性 一 根据 购买 可 能 性 推荐 商品 。 

2. 内 容 过 滤 

内 容 过 滤 是 对 网 络 内 容 进行 监控 ,防止 某 些 特定 内 容 在 网 络 上 进行 传输 的 技 
术 。 主 要 实现 有 软件 和 硬件 两 种 。 
当然 这 里 指 的 是 使 用 软件 方式 的 内 容 过 滤 ,基本 原理 就 是 根据 客户 的 喜好 和 
习惯 跟 内 容 进 行 对 比 。 同 样 有 很 多 优点 ,也 有 很 多 缺点 ,优点 就 是 简单 .有效 ,而 缺 
点 正 是 协同 过 滤 的 优点 ,对 于 一 些 难以 对 内 容 进行 分 析 或 者 难以 表达 的 东西 ,使 用 
内 容 过 滤 是 没有 办 法 处 理 的 。 

3. 数据 挖掘 

数据 挖掘 是 一 种 透 过 数理 模式 来 分 析 企 业内 储存 的 大 量 资料 ,以 找 出 不 同 的 
客户 或 市 场 划分 ,分 析出 消费 者 喜好 和 行为 的 方法 。 

数据 挖掘 可 以 做 七 种 事情 ,分 别 是 : 分 类 (Classification) , 估 值 (Estimation ) ， 
预言 (Prediction), 相 关 性 分 组 或 关联 规则 (Affinity Grouping or Association 
Rules) ,聚集 (Clustering) ,描述 和 可 视 化 (Description and Visualization) ,复杂 数 
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据 类 型 挖掘 。 

数据 挖掘 又 分 为 直接 数据 挖掘 和 间接 数据 挖掘 。 

先 来 说 一 种 比较 常见 的 数据 挖掘 算法 Apriori 算法 。 

Apriori 算法 是 一 种 最 有 影响 的 挖掘 布尔 关联 规则 频繁 项 集 的 算法 。 其 核心 
是 基于 两 阶段 频 集 思想 的 递 推算 法 。 该 关联 规则 在 分 类 上 属于 单 维 . 单 层 , 布 尔 关 
联 规则 。 在 这 里 ,所 有 支持 度 大 于 最 小 支持 度 的 项 集 称 为 频繁 项 集 ,简称 频 集 。 

该 算法 的 基本 思想 是 : 首先 找 出 所 有 的 频 集 ,这 些 项 集 出 现 的 频繁 性 至 少 和 
预定 义 的 最 小 支持 度 一 样 。 然 后 由 频 集 产生 强 关联 规则 ,这 些 规则 必须 满足 最 小 
支持 度 和 最 小 可 信和 度 。 然 后 使 用 第 一 步 找 到 的 频 集 产生 期 望 的 规则 ,产生 只 包含 
集合 的 项 的 所 有 规则 ,其 中 每 一 条 规则 的 右 部 只 有 一 项 ,这 里 采用 的 是 中 规则 的 定 
义 。 一旦 这 些 规 则 被 生成 ,那么 只 有 那些 大 于 用 户 给 定 的 最 小 可 信和 度 的 规则 才 被 
留 下 来 。 为 了 生成 所 有 频 集 ,使 用 了 递 推 的 方法 。 


6.3.3 一 个 例子 : 动态 信息 推荐 


此 模块 为 动态 信息 推荐 , 放 到 人 人 网 上 面 来 说 可 以 简单 地 理解 为 新 鲜 事 推 荐 ， 
在 这 一 个 模块 中 ,要 解决 一 个 非常 重要 的 问题 ,就 是 消息 的 时 效 性 的 问题 。 我 们 知 
道 , 在 好 友 推 荐 模块 ,任何 好 友 的 地 位 都 是 平等 的 ,也 就 是 说 新 注册 的 好 友和 原来 
注册 的 好 友之 间 没 有 什么 区 别 。 但 是 对 于 动态 信息 来 说 ,时 效 性 却 是 非常 关键 的 
一 项 属性 , 举 一 个 最 为 简单 的 例子 ,“9，。11 事件 ”在 2001 年 9 月 12 日 这 一 天 绝对 
是 世界 上 最 为 火爆 得 新 闻 ,没有 之 一 ,但 是 ,如 果 将 其 放 到 十 年 后 的 2011 年 ,这 显 
然 不 足以 称 之 为 新 闻 , 这 就 是 时 效 性 ,这 一 属性 是 之 前 好 友 推 荐 里 面 所 没有 的 。 

但 是 ,在 解决 时 效 性 之 前 , 先 来 看 看 如 果 没 有 时 效 性 这 一 属性 的 推荐 方法 , 首 
先 在 这 里 需要 说 的 一 点 ,由 于 动态 信息 的 推荐 跟 好 友 推 荐 有 一 个 本 质 的 区 别 : 这 
个 推荐 程序 会 经 常 执行 ,在 用 户 每 次 打开 首页 的 时 候 ,动态 信息 推荐 都 会 执行 一 
次 ,并 将 结果 作为 推荐 内 容 呈 现 给 用 户 , 所 以 此 处 ,应 该 尽量 选择 方法 较为 简单 但 
是 效率 高 的 算法 来 减轻 服务 器 的 负担 ,而 不 是 选择 传统 的 ,计算 量 非常 巨大 的 “ 收 
制 ,分 词 , 提 词 频 ” 等 耗 时 巨大 的 算法 。 所 以 通过 综合 考虑 选择 Apriori 算法 。 

Apriori 算法 是 一 种 最 有 影响 的 挖掘 关联 规则 的 算法 ,该 算法 先 挖掘 出 所 有 的 
频繁 项 集 ,然后 由 频繁 项 集 产 生 关联 规则 ,许多 挖掘 关联 规则 频繁 项 集 的 算法 都 是 
由 它 演 变 而 来 的 ,虽然 也 需要 挖掘 出 关联 规则 以 便 进 行 页 面 推荐 ,但 是 Aprior 算 
法 并 不 适合 进行 基于 数据 库 的 关联 规则 挖掘 。 这 是 因为 数据 库 中 所 包含 的 是 序列 
数据 ,我们 需要 的 规则 也 是 有 时 间 截 的 ,因为 访问 网 页 的 时 间 是 有 先后 顺序 的 , 例 
如 : Pl>P2 和 P2-~P1 具有 不 同 含义 ,而 Apriori 算法 则 没有 考虑 到 时 间 的 先后 对 
规则 挖掘 的 影响 , 它 只 是 反映 出 访问 Pl 的 用 户 也 访问 了 P2 。 
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先 引入 一 个 序列 模式 和 关联 规则 : 

(1) 访问 新 鲜 事 Pl 之 后 有 30%% 的 用 户 访问 了 新 鲜 事 P3 。 

(2) 访问 新 鲜 事 Pl 和 P3 之 后 有 35% 的 用 户 又 访问 了 新 鲜 事 P5 。 

(3) 在 用 户 一 次 访问 过 程 中 同时 访问 新 鲜 事 Pl1、P3、P5 的 概率 为 16. 1%。 

(4) 经 过 聚 类 分 析 之 后 发 现 P1、.P3、P5 属于 同一 个 类 。 

根据 所 发 现 的 类 似 模 式 和 规则 ,可 以 进行 页 面 推荐 ,例如 , 当 一 位 用 户 访问 了 
页 面 P1 和 P3 之 后 ,根据 分 析 以 往 用 户 的 访问 模式 所 得 到 的 信息 便 可 以 向 当前 用 
户 推 荐 页 面 P5。 

直接 使 用 “滑动 窗口 ”的 概念 ,这 样 可 以 直接 剔除 不 影响 结果 的 用 户 行为 。 例 
如 ,用 户 访问 了 P1、P2 和 P5 三 个 页 面 , 则 W = 二 P1,P2,P5 之 ,其 中 W 表示 滑 
动 窗口 。 在 这 里 设置 W 的 默认 大 小 为 3, 即 只 用 记录 用 户 最 近 访 问 的 三 个 页 面 。 
这 个 值得 选择 基于 以 下 两 个 考虑 : (1) 最 新 访问 过 的 页 面 更 能 反映 用 户 当前 的 兴 
趣 所 在 ; (2) 由 于 考虑 了 页 面 被 访问 的 先后 顺序 ,而 浏览 顺序 完全 一 致 的 情况 并 不 
是 经 常 发 生 ,尤其 是 当 W 的 值 大 于 3 的 时 候 。 而 且 , 在 实际 算法 中 , 当 W=3 无 法 
找到 完全 匹配 的 结果 时 ,可 以 动态 将 W 递减 ,直到 W = 0 或 者 找到 匹配 的 结果 。 

下 面 来 看 看 具体 算法 的 过 程 ,将 以 W = 二 P1,P2,P4 过 为 例 说 明 如 何 得 到 推 
荐 页 面 。 

取 W = 过 Pl1,P2,P4 二 中 的 第 一 个 页 面 P1, 然 后 在 数据 库 中 开始 找寻 所 有 
在 访问 Pl 之 后 又 访问 了 P2 的 用 户 数 N1, 如 果 N1 二 0, 则 记录 这 N1 个 用 户 , 执 
行 第 二 步 。 

在 这 N1 个 用 户 的 集合 中 ,再 继续 寻找 在 访问 了 P2 之 后 访问 了 P4 的 用 户 数 
量 N2, 得 到 的 N2 如 果 大 于 0, 则 将 结果 集 记 录 下 来 ,执行 下 一 步 。 

此 时 的 N2 ,就 是 所 有 按 顺 序 访问 了 P1.P2 和 P4 的 用 户 , 显 然 , 可 以 得 到 一 个 
集合 PN,PN 中 包含 了 所 有 N2 中 的 用 户 在 访问 P1,P2 和 P4 之 后 所 访问 的 下 一 个 
页 面 。 由 于 原 算法 需要 验证 支持 度 和 置信 度 ,考虑 到 效率 和 待 会 还 要 进行 时 效 性 
验证 ,所 以 直接 以 一 个 非常 简单 的 算法 取得 结果 : 在 PN 中 ,直接 取 占 有 量 最 大 的 
那个 网 站 ,例如 在 PN 中 ,P3 被 访问 了 13 次 ,P5 被 访问 了 20 次 ,P6 被 访问 了 
48 次 , 则 直接 选择 P6, 如 果 出 现 占有 率 相同 的 现象 , 则 直接 选择 时 间 上 比较 晚 那 一 
个 页 面 。 

根据 以 天 津 大 学 网 站 2003-03-01 一 2003-03-07 一 周 的 Web 日 志文 件 作 为 试 
验 的 对 象 ,该 日 志文 件 共 105MB, 经 数据 清理 后 剩余 有 效 记 录 378747 条 。 试 验 的 
目的 是 为 了 测试 不 同 的 支持 度 和 置信 度 阔 值 对 于 推荐 页 面 数量 的 影响 以 及 滑动 窗 
口 W 的 大 小 设 为 3 是 否 理想 。 试 验 发 现 , 随 着 支持 度 和 置信 度 阔 值 的 提高 ,所 得 
到 推荐 页 面 数量 明显 减少 ,同时 , 随 着 滑动 窗口 W 的 增 大 ,得 到 的 推荐 页 面 数量 也 
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旦 减少 的 趋势 。 可 见 选择 合适 的 支持 度 、 置 信和 度 和 滑动 窗口 W 对 于 最 后 得 到 的 推 
荐 页 面 数量 有 明显 的 影响 ,如 果 取 值 太 小 虽然 可 以 得 到 更 多 的 页 面 , 可 是 页 面 间 的 
相关 程度 明显 降低 , 取 值 太 大 可 以 得 到 相关 度 很 高 的 页 面 ,但 是 得 到 的 页 面 数量 太 
少 。 针 对 算法 Predictor, 采 用 支持 度 S = 2% 、 置 信和 度 C = 40% 以 及 WW 二 3 可 以 
得 到 较 好 的 结果 。 当 然 , 这 是 文献 中 作者 对 算法 执行 效率 的 测试 ,可 以 直接 简单 的 
认为 ,窗口 大 小 取 3 是 比较 合理 的 一 种 做 法 ,在 得 到 这 个 结论 之 后 , 便 可 以 开展 下 
面 的 工作 。 

如 果 我 们 不 考虑 时 效 性 , 那 上 面 这 个 算法 可 以 算 一 个 比较 好 的 算法 ,但 是 , 消 
息 如 果 不 考 虑 时 效 性 就 会 发 生 像 上 面 列举 的 九 一 一 式 的 笑话 。 在 此 ,考虑 到 推荐 
结果 并 不 需要 太 过 于 精确 ,可 以 在 上 述 算法 中 做 出 一 个 非常 小 的 改动 即 可 。 

选择 “加 权 ” 的 办 法 ,加 入 时 间 的 权重 ,显然 ,时 间 越 靠近 当前 时 间 , 权 重 应 该 占 
得 更 重 ,而 越 靠 近 当 前 时 间 ,权重 的 增加 幅度 应 该 减少 ,可 以 只 考虑 10 天 之 内 的 新 
鲜 事 ,因为 10 天 前 的 事情 ,可 以 因 其 时 效 性 滞后 而 直接 将 其 忽略 ,所 以 取 240 发 生 
时 间 是 可 行 的。 因此 ,直接 将 时 间 放 在 最 后 权重 公式 的 乘 号 后 面 。 

当然 ,整体 上 也 要 做 出 一 些 修 改 。 原 因 是 由 于 加 入 了 时 效 性 的 验证 ,必须 将 上 
面 的 窗口 不 停 地 往 前 面 滑动 ,具体 来 说 就 是 将 得 到 的 结果 作为 上 述 算法 中 最 后 一 
个 浏览 的 页 面 ,将 窗口 W 向 后 移动 一 格 ,再 进行 一 次 计算 。 在 每 次 推荐 过 程 中 , 默 
认 D = 5, 即 执行 5 次 上 面 的 算法 ,每 次 将 结果 纳入 W ,并 同时 将 W 向 后 滑动 一 
格 。 显 然 , 当 D 增 大 ,权重 应 该 减 小 ,而 随 着 D 的 减 小 ,可 以 认为 权重 减 小 的 幅度 
是 一 定 的 ,所 以 ,可 以 将 这 个 值 放 在 权 值 公式 的 乘 号 前 面 , 所 以 权 值 定 义 如 式 (6-18) 
所 示 : 


Ri = (D 十 1 一 D) * (240 一 (Th 一 Te)) (6-18) 

上 式 中 ,I 为 执行 的 次 数 ,TAN 为 当前 的 时 间 ,TR 为 人 创建 时 的 时 间 ,单位 为 小 

时 。 算 法 执行 之 后 , 选 在 R 值 最 高 的 3 个 页 面 直接 呈现 给 用 户 。 来 看 一 下 数据 库 
的 实现 (如 表 6. 11) 所 示 。 


表 6.11 图 用 户 浏览 记录 数据 表 


[testtype [testia 
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由 于 testid 是 按照 浏览 的 先后 顺序 插入 数据 库 的 ,所 以 testid 可 以 从 侧面 反映 
出 用 户 浏览 网 页 的 先后 顺序 ,testtype 是 指 是 新 鲜 事 还 是 状态 。 数 据 字 典 如 表 6. 12 
所 示 。 
表 6.12 表 用 户 浏览 记录 数据 字典 


字段 名 称 是 否 主键 字段 类 型 中 文 描述 
testid 是 INT 主键 

uid 否 INT 用 户 号 
newid 否 INT 消息 序号 
testtype 否 INT 消息 类 型 


6.4 本 章 小 结 


社会 计算 是 一 个 方兴未艾 的 发 展 迅猛 的 新 领域 ,社会 化 媒体 是 社会 计算 的 研 
究 对 象 ,社会 化 媒体 的 出 现 更 是 为 许多 传统 领域 开启 了 一 扇 融 人 更 多 交互 元 素 的 
信息 之 门 。 在 社会 化 媒体 计算 中 ,情感 分 析 是 一 项 非常 重要 的 分 析 手 段 ,本章 首先 
以 微 博 作为 典型 的 社会 化 媒体 平台 ,阐述 了 社会 媒体 下 的 情感 分 析 概 念 、 情 感 分 析 
的 文本 处 理 过 程 ,详细 给 出 了 情感 倾向 分 析 的 分 类 模型 ,以 及 情感 分 类 的 评价 指 
标 。 这 套 完整 的 流程 描述 清晰 地 展现 了 社会 化 媒体 上 情感 分 析 的 基本 过 程 。 其 
次 ,股票 预测 一 直 是 金融 预测 领域 的 一 项 艰巨 任务 ,本 章 从 社会 化 媒体 信息 的 全 新 
视角 出 发 ,详细 阅 述 了 融入 新 闻 和 与 情 的 金融 预测 的 数据 获取 及 量化 处 理 方 法 ; 随 
后 ,从 输入 变量 的 选择 、 维 度 缩减 、 闷 值 去 噪 三 个 方面 分 析 了 金融 股市 预测 的 优化 
方法 ; 进一步 通过 实验 比较 了 SVM 算法 .ARMA 模型 和 BP 神经 网 络 三 种 金融 预 
测 模型 ,并 给 出 四 种 金融 预测 的 评价 指标 。 最 后 ,本 章 详细 描述 了 在 社交 网 站 上 如 
何 实现 个 性 化 服务 ,介绍 了 推荐 系统 的 核心 技术 ,并 给 出 了 一 个 在 社交 网 站 上 完成 
动态 信息 推荐 的 实例 。 


. 试 谈 你 对 在 社会 化 媒体 下 的 文本 挖掘 的 情感 分 析 的 理解 。 

. 试 搭建 一 个 简单 的 微 博 情感 分 析 系 统 。 

. 试 谈 你 对 基于 流 形 学 习 的 社会 化 媒体 下 的 金融 预测 模型 的 理解 。 

. 查找 相关 资料 ,整理 分 析 股 票 预测 的 方法 。 

. 思考 在 现 有 社交 网 站 上 如 何 更 好 地 提供 个 性 化 服务 ,请 列举 一 些 个 人 的 


cn 上 co 性 


社会 化 媒体 跨 平台 挖掘 


本 章 学 习 目 标 
。 理解 社会 化 媒体 跨 平 台 挖 握 的 意义 
。 了解 跨 平 台 的 用 户 识别 


互联 网 上 分 布 着 各 式 各 样 的 社会 化 媒体 ,人 们 在 这 些 社会 化 媒体 上 讨论 相同 
或 相似 的 话题 。 因 此 ,融合 多 个 社会 化 媒体 的 社会 行为 数据 , 跨 平台 地 进行 各 种 分 
析 , 能 为 人 们 进行 决策 提供 更 完备 的 社会 行为 数据 。 跨 平台 数据 挖掘 即 是 使 用 某 
些 技 术 、 方 式 将 各 种 各 样 的 社会 化 媒体 进行 融合 ,从 而 为 社会 计算 提供 更 丰富 的 社 
会 数据 和 更 完整 的 社会 网 络 结构 。 跨 平台 社会 化 媒体 的 数据 挖掘 是 指 将 来 自 多 个 
不 同 社会 化 媒体 的 原始 数据 进行 集中 和 融合 ,从 而 为 社会 计算 提供 全 面 的 社会 
数据 。 

在 互联 网 中 ,不 同 的 社会 化 媒体 有 着 不 同 的 定位 目标 ,它们 分 别 对 应 用 户 不 同 
的 需求 ,包括 沟通 、 分 享 等 。 例 如 ,人 人 网 用 于 博客 撰写 ,分 享 心得 等 ; 新 浪 微 博 用 
于 记录 、 分 享 生活 点 滴 状 态 ; 微 信 用 于 即时 沟通 交流 等 。 基 于 不 同 的 需求 ,人 们 往 
往 拥有 多 个 社会 化 媒体 账号 。 显 然 ,在 这 些 社会 化 媒体 中 ,用 户 是 它们 之 间 进 行 集 
成 的 天 然 桥 梁 。 通 过 将 不 同 媒 体 间 的 属于 同一 个 体 的 不 同 用 户 归 类 ,就 能 自然 而 
然 地 将 这 些 社会 化 媒体 进行 融合 。 因 此 ,里 平台 社会 化 媒体 的 数据 挖掘 ,其 最 根本 
的 任务 在 于 社会 化 媒体 用 户 的 识别 。 从 一 定 程度 上 说 ,社会 化 媒体 数据 挖掘 是 社 
会 化 媒体 的 用 户 识别 问题 。 如 果 能 够 跨 平台 实现 平台 间 的 用 户 匹 配 ,将 能 为 社会 
建 模 和 分 析 提 供 更 充分 地 社会 行为 数据 ,为 知识 发 现 和 决策 支持 等 应 用 提供 更 为 
全 面 的 社会 网 络 结构 和 更 完整 的 用 户 信息 内 容 (User Generated Content,UGC) 和 
更 充分 的 社会 行为 数据 。 


在 基于 社会 化 媒体 的 诸多 研究 领域 中 , 跨 平台 数据 挖掘 的 研究 还 处 于 刚刚 起 
步 阶段 。 现 阶段 所 能 查阅 的 文献 资料 与 其 他 相关 领域 相 比 要 少 很 多 。 虽 然 社会 化 
媒体 数据 挖掘 属于 数据 挖掘 的 领域 ,但 是 , 它 与 传统 的 数据 挖掘 不 太 相同 。 跨 平台 
社会 化 媒体 数据 挖掘 的 首要 任务 在 于 用 户 识 别 。 在 过 去 几 十 年 里 ,为 了 识别 不 同 
的 实体 对 象 ,各 个 领域 都 有 实体 识别 的 研究 ,如 价格 表 、 文 献 识别 以 及 犯罪 数据 库 
等 。 跨 平台 用 户 的 识别 方法 可 以 借鉴 现 有 的 实体 识别 方法 。 

由 于 用 户 是 社会 化 媒体 之 间 的 天 然 连 接 纽带 。 因 此 , 跨 平台 社会 化 媒体 的 数 
据 挖掘 ,在 很 大 程度 上 说 ,是 社会 化 媒体 的 用 户 识 别 问 题 。 也 即 ,识别 出 多 个 社会 
化 媒体 中 同属 于 同一 个 人 的 账号 ,进而 通过 这 些 账 号 将 多 个 社会 化 媒体 进行 有 机 
融合 。 社 会 化 媒体 为 用 户 识别 提供 了 许 许多 多 的 元 数据 ,包括 用 户 名 、 用 户 性 别 、 
年 龄 .所 在 地 、 头 像 .签名 以 及 其 发 布 的 多 媒体 内 容 信息 、 内 容 信息 发 布 时 间 、 发 布 
地 点 ,发 布 来 源 等 信息 。 鉴 于 不 同 的 社会 化 媒体 ,人 们 所 能 获取 的 信息 不 同 , 且 信 
息 的 琉 密 不 同 。 因 此 ,人 们 根据 实际 情况 ,使 用 一 个 或 多 个 这 些 信息 进行 用 户 
识别 。 


7.1 基于 用 户 名 的 用 户 识别 


在 社会 化 媒体 所 贡献 的 所 有 信息 中 ,用 户 名 是 唯一 的 所 有 用 户 都 必须 有 的 信 
息 项 。 因 此 ,人 们 在 做 用 户 匹 配 时 ,理论 上 可 以 依据 用 户 名 进行 识别 。 人 们 在 不 同 
的 社会 化 媒体 上 选择 用 户 名 时 ,往往 会 遵循 一 定 的 行为 模式 。 从 这 些 行为 模式 中 
进行 数据 挖掘 ,就 能 识别 出 不 同 社会 化 媒体 上 同属 于 一 个 人 的 用 户 。 

根据 用 户 名 进行 用 户 识 别 的 问题 可 以 定义 为 : 假定 已 知 某 用 户 工 在 ”个 社会 
化 媒体 中 的 用 户 名 为 U = 二 { 澡 ，ws，…,，), 则 给 定 另 一 个 社会 化 媒体 的 用 户 名 
c, 判 定 c 是 否 为 属于 用 户 T。 也 即 ,基于 用 户 名 的 用 户 识别 可 以 用 如 下 函数 表示 : 

1 c 属 于 用 户 I 
Usc) = 
0 ”其 他 

当 人 们 使 用 某 个 用 户 名 的 时 候 , 就 可 以 通过 抽取 隐藏 在 用 户 名 后 的 行为 特征 ， 
并 转化 为 数字 特征 ,进而 使 用 机 器 学 习 算法 来 判定 。 由 于 机 器 学 习 比 较 清 晰 ; 因 
此 ,在 基于 用 户 名 的 用 户 识别 中 ,更 多 的 研究 重点 主要 集中 在 用 户 行为 特征 的 抽取 
上 。 基 于 用 户 名 的 用 户 识别 技术 的 整体 框架 如 图 7. 1 所 示 。 


某 人 已 知 的 用 用 户 命名 行 5 中 中 | 了 g 半 
户 名 集合 U 上 一 | 为 规则 发 现 六 | 机 器 学 习 识别 函数 


图 7.1 基于 用 户 名 的 用 户 识别 技术 的 整体 框架 
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人 们 可 以 在 不 同 的 社会 化 媒体 上 选择 完全 不 相关 的 用 户 名 进行 注册 ,从 而 使 
得 研究 人 员 无 法 从 其 用 户 名 中 获取 足够 的 行为 特征 信息 。 然 而 ,理论 上 只 有 满足 
最 大 炉 原则 的 用 户 名 才 可 能 不 会 提供 任何 用 户 行为 模式 信息 。 也 就 是 说 ,用 户 名 
长 度 是 该 社会 化 媒体 所 允许 的 最 大 长 度 , 且 用 户 名 的 所 有 字符 都 是 完全 随机 的 情 
况 下 ,人 们 才 无 法 从 中 获取 用 户 行为 规则 信息 。 

很 显然 , 受 限 于 人 自身 的 条 件 , 满 足 最 大 今 的 用 户 名 几乎 是 不 存在 的 (除非 由 
于 某 些 特殊 的 因素 ,由 计算 机 自动 生成 用 户 名 )。 事 实 上 ,人 短期 内 只 能 记 住 7 士 2 
个 较 长 的 字符 ; 而 且 , 人 们 对 随机 性 字符 的 记忆 能 力 较 差 ,也 即 人 们 往往 选择 记 住 
较为 熟悉 的 字符 串 。 因 此 ,这 些 因 素 使 得 人 们 在 选择 用 户 名 的 时 候 , 往 往 选用 不 是 
很 长 非 随机 的 字符 串 ,该 字符 串 中 隐藏 着 人 们 在 选择 用 户 名 时 的 潜在 行为 规则 。 
从 用 户 名 中 挖掘 出 用 户 名 命名 规则 ,就 能 在 给 定 某 自然 人 在 某 些 社会 化 媒体 中 的 
用 户 名 的 情况 下 ,判定 另 一 社会 化 媒体 中 某 个 给 定 的 用 户 名 是 否 属 于 该 自然 人 。 
通常 情况 下 ,用 户 命名 规则 的 行为 模式 可 以 归纳 为 三 类 : 人 自身 限制 因素 、 外 部 因 
素 和 内 部 因素 。 本 文 以 人 自身 受 限 因素 为 例 ,进行 用 户 命名 行为 特征 发 现 说 明 。 

通常 情况 下 ,人 们 在 选择 用 户 名 时 ,往往 受 记忆 和 知识 的 限制 。 这 两 方面 的 因 
素 都 可 用 于 挖掘 用 户 名 命名 特征 。 


7.1.1 记忆 力 受 限 因 素 


据 数 据 统计 ,为 了 便于 记忆 用 户 名 ,59% 的 人 习惯 于 在 多 个 不 同 的 社会 化 媒体 
使 用 相同 的 用 户 名 。 当 用 户 名 c 在 已 知 用 户 名 集合 U 中 出 现时 ,c 和 U 有 很 大 可 
能 同属 于 一 个 人 。 因 此 .U 中 < 出 现 的 次 数 可 抽象 为 一 个 命名 规则 特征 。 当 cc 在 U 
中 出 现 的 次 数 越 多 , 则 c 越 有 可 能 和 U 同属 于 一 个 人 。 当 然 , 也 有 可 能 因为 某 个 其 
他 用 户 在 该 媒体 中 抢占 了 用 户 名 c, 使 得 c 和 UU 不 同属 于 一 人 。 所 以 ,c 出 现在 U 
中 ,并 不 一 定 意味 着 c 和 U 就 是 同一 个 人 。 

另 一 方面 ,用 户 在 构建 用 户 名 时 ,经 常 是 从 其 常用 的 用 户 名 中 选取 一 个 。 这 些 
可 选 的 用 户 名 的 长 度 是 不 一 样 的 。 若 用 /表示 用 户 名 c 的 长 度 ,l, 表 示 已 知 用 户 名 
集合 U 中 某 用 户 名 x 的 长 度 , 则 通常 有 min(l,) 三 /二 max(1,)。 为 了 抽取 用 户 
名 长 度 特征 ,通常 用 一 个 五 元 组 来 表示 用 户 名 集合 U 的 用 户 名 长 度数 字 特 征 , 即 
{ELlj, oflj, mid[lj], min[l, jj, max[lj }, 其 中 E[L], ofl,j]j,， mid[i,j]， 
min[4j，max[l ] 分 别 表示 U 中 用 户 名 长 度 的 均值 .方差 .中 值 .最 小 值 和 最 大 值 。 


7.1.2 知识 受 限 因素 


人 们 所 掌握 的 任何 一 门 语言 的 词汇 量 都 是 有 限 的 。 在 有 些 情况 下 ,人 们 所 掌 
握 的 第 一 语言 的 词汇 量 要 比 第 二 、 三 语言 要 多 一 些 。 但 其 量 一 般 都 是 一 定 的 。 正 


如 有 人 所 统计 的 ,人 们 所 常用 的 英语 词汇 量 在 2000 个 左右 。 用 户 名 通常 是 人 们 常 
用 词汇 的 组 合 。 因 此 ,可 以 根据 用 户 名 所 包含 的 词汇 的 个 数 来 进行 建 模 。 其 建 模 
可 借鉴 用 户 名 长 度 ,建立 一 个 五 元 组 。 

此 外 ,任何 一 门 语言 ,其 字母 或 字 的 量 是 有 限 的 ,而 人 们 所 熟识 的 字 或 字母 也 
是 固定 的 。 也 就 是 说 ,人 们 往往 习惯 于 选用 他 们 所 熟悉 的 字 或 字母 来 构建 用 户 名 。 
因此 ,也 可 以 根据 用 户 名 中 包含 的 字 或 字母 的 数量 来 构建 类 似 的 五 元 组 。 

通过 上 述 模型 特征 的 发 现 ,获取 用 户 进行 用 户 名 构建 的 基本 特征 ,进而 采用 机 
器 学 习 的 方法 ,构建 识别 函数 ,最 后 ,通过 识别 函数 可 以 识别 出 给 定 的 用 户 名 是 否 
与 已 知 的 用 户 名 同属 于 一 个 人 。 


7.2 基于 网 络 结构 的 用 户 识别 


社会 网 络 结构 是 社会 化 媒体 中 的 一 个 重要 信息 。 基 于 社会 网 络 结构 ,人 们 可 
以 进行 各 种 各 样 的 社会 网 络 分 析 。 通 常情 况 下 ,社会 网 络 分 析 是 进行 其 他 社会 计 
算 的 基础 。 基 于 社会 网 络 结构 的 用 户 识别 可 以 定义 为 : 给 定 两 个 社会 化 媒体 的 社 
会 网 络 结构 G1 = {V1, El } 和 G2 = {V2, E2} ,如 何 识别 出 尽 可 能 多 的 用 户 匹配 
对 (w, wv) ,使 得 wv; 和 wj 同属 于 一 个 人 ,其 中 vw; 和 wj 分别 为 社会 化 媒体 Gl 和 G2 中 
的 用 户 。 

基于 社会 网 络 结构 的 用 户 识别 方法 通常 分 两 步 进行 : 种 子 结 点 识别 和 和 迭代 
识别 。 种 子 结 点 识别 在 于 使 用 已 有 的 稀疏 属性 或 内 容 数 据 , 挖 掘 出 少量 用 户 匹 
配对 ,进而 使 用 这 些 少量 已 识别 的 用 户 迭 代 识 别 出 更 多 的 用 户 匹 配对 (如 图 7.2 
所 示 )。 


et / | HR | 迭代 识别 -J 用 户 匹配 对 / 


图 7.2 基于 网 络 结构 的 用 户 识别 技术 的 基本 流程 


7.2.1 种 子 结 点 识别 


在 给 定 有 限 的 属性 下 ,只 能 根据 所 能 获取 的 属性 信息 识别 出 少量 的 种 子 结 点 。 
由 于 不 同 的 社会 化 媒体 ,其 所 能 获取 的 信息 不 同 ; 因此 , 现 阶段 并 没有 通用 的 种 子 
结 点 获取 方法 。 通 常 ,人 们 根据 所 要 进行 数据 挖掘 的 社会 化 媒体 ,有 针对 性 地 进行 
种 子 结 点 识别 。 由 于 种 子 结 点 识别 不 是 基于 社会 网 络 结构 的 用 户 识别 方法 的 核 
心 , 在 某 些 情况 下 ,种 子 结 点 将 手工 进行 标注 。 

通常 情况 下 ,在 不 同 的 社会 化 媒体 中 ,用 户 习 惯 于 使 用 相同 的 用 户 名 。 因 此 ， 
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基于 用 户 名 进行 种 子 结 点 标注 是 一 种 方法 。 然 而 ,在 有 些 情况 下 ,由 于 人 们 具有 相 
似 的 行为 习惯 以 及 知识 背景 ,因此 ,很 多 人 会 选用 相同 或 相似 的 用 户 名 ,从 而 导致 
在 两 个 社会 化 媒体 中 ,相同 用 户 名 的 用 户 并 不 一 定 同属 于 一 个 人 。 因 此 ,往往 需要 
加 入 额外 的 属性 进行 辅助 判断 。 例 如 ,在 QQ 微 博 和 新 浪 微 博 的 种 子 结 点 识别 中 ， 
就 可 以 使 用 用 户 名 加 签名 的 方法 进行 。 即 , 当 QQ 微 博 中 的 某 个 用 户 和 新 浪 微 博 
中 的 某 个 用 户 具 有 相同 的 用 户 名 和 签名 时 ,可 认定 这 两 个 用 户 同属 于 一 个 人 。 

随 着 社会 化 媒体 技术 的 发 展 , 基 于 更 好 用 户 体验 和 商业 意图 等 目的 , 许 许 多 多 
的 社会 化 媒体 允许 用 户 绑 定 其 他 社会 化 媒体 的 账户 。 例 如 ,手机 应 用 哺 哎 和 唱 吧 
等 就 可 以 绑 定 用 户 的 新 浪 微 博 账 户 和 QQ 账户 等 。 因 此 ,通过 账户 绑 定 , 可 以 准 
确 \ 快 速 地 获取 种 子 结 点 。 

此 外 ,在 某 些 社会 化 媒体 中 还 可 以 通过 用 户 属性 中 的 网 址 (URL) 信 息 进行 种 
子 结 点 识别 。 例 如 ,通过 分 析 Twitter 账户 中 的 URL 属性 ,如 果 该 属性 中 ,包含 其 
Facebook 的 主页 信息 , 则 能 直接 识别 其 对 应 的 Facebook 账户 ,从 而 实现 Twitter 
和 Facebook 种 子 结 点 的 识别 。 


7.2.2 和 迭代 识别 


给 定 两 个 社会 化 媒体 的 社会 网 络 结构 信息 G1=={V1, E1} ,G2 二 {V2,E2}) 和 
已 知 部 分 给 定 的 种 子 结 点 ,进而 识别 出 更 多 的 用 户 匹 配对 是 迭代 识别 的 主要 功能 。 
迭代 识别 ,顾名思义 ,就 是 根据 已 知 种 子 结 点 ,识别 出 部 分 的 用 户 匹 配对 ,进而 将 这 
些 用 户 匹 配对 加 入 种 子 结 点 中 ,从 而 识别 出 更 多 用 户 匹 配对 。 不 断 迭 代 上 述 过 程 ， 
直到 找 出 所 有 能 识别 的 用 户 匹 配对 。 最 终 ,完成 用 户 识别 并 进而 完成 跨 平台 社会 
化 媒体 数据 挖掘 。 

在 给 定 的 两 个 社会 网 络 结构 中 ,迭代 识别 通常 从 某 个 社会 网 络 结构 中 选取 某 
个 未 识别 的 用 户 ,进而 通过 某 种 算法 计算 出 与 该 结 点 有 共同 已 知 邻 接 结 点 的 另 一 
个 社会 网 络 中 的 结 点 的 匹配 度 。 当 匹配 度 大 于 已 知 设 定 的 某 个 阅 值 时 , 则 认为 这 
两 个 结 点 为 一 个 用 户 匹 配对 ,同属 于 一 个 人 。 因 此 ,在 迭代 识别 过 程 中 ,最 重要 的 
因素 在 于 如 何 计 算 两 个 未 匹配 结 点 的 匹配 度 。 

在 两 个 基于 有 向 图 的 社会 网 络 结 构 的 社会 化 媒体 中 ,计算 两 个 属于 不 同 社会 
化 媒体 的 用 户 之 间 的 匹配 度 需要 考虑 如 下 因素 : 

(1) 边 的 有 向 性 。 由 于 社会 网 络 结构 是 有 向 的 ,因此 ,在 计算 一 对 用 户 的 匹配 
度 时 ,可 以 通过 计算 两 种 匹配 度 ,进而 求 和 得 到 。 其 中 ,一 种 是 基于 入 度 的 匹配 度 ， 
另 一 种 是 基于 出 度 的 匹配 度 。 将 这 两 种 匹配 度 相 加 ,得 到 这 两 个 用 户 最 终 的 匹 
配 度 。 

(2) 结 点 度 。 在 社会 网 络 中 ,用 户 的 度 往往 服从 寡 律 分 布 。 因 此 ,为 避免 因 结 


点 度 太 大 而 导致 识别 准确 率 低 ,在 使 用 结 点 度 时 ,对 结 点 度 做 平方 根 处 理 。 

(3) 离异 度 。 为 了 提高 用 户 识 别 的 准确 率 ,可 以 认为 只 有 当 来 自 第 一 个 社会 
化 媒体 中 的 用 户 ", 同 所 有 另 一 个 社会 化 媒体 中 相关 的 用 户 的 离异 度 大 于 某 个 设 
定 的 阔 值 时 , 才 认 为 x 很 有 可 能 同 另 一 个 社会 化 媒体 中 相关 的 用 户 中 匹配 度 最 高 
的 用 户 相 匹配 。 离 异 度 的 计算 公式 如 下 : 


max(X) 一 maxz(X) 
OCX) 


其 中 ,max 和 maxs 分 别 为 wx 同 另 一 个 社会 化 媒体 中 的 用 户 匹 配 度 的 最 大 值 和 次 大 
值 ,c 为 这 组 匹配 度 的 标准 差 。 只 有 当 离 异 度 大 于 某 个 设 定 阔 值 时 , 才 认 为 x 与 最 
大 匹配 度 的 用 户 相 匹配 。 

鉴于 上 述 考 虑 ,最 终 可 以 采用 如 下 算法 进行 基于 社会 网 络 结构 的 用 户 识别 。 

步骤 1: 遍历 社会 网 络 Gl 中 所 有 未 匹配 的 用 户 。 

步骤 2: 计算 当前 用 户 同 所 有 与 之 有 共同 相 邻 用 户 的 所 有 社会 网 络 G2 中 的 用 
户 的 匹配 度 值 。 

步骤 3: 计算 所 获取 匹配 度 值 的 离异 值 。 

步骤 4: 当 离异 值 大 于 某 个 设 定 阔 值 时 , 则 认为 匹配 度 值 最 高 的 用 户 与 当前 用 
户 同 属于 一 个 人 。 

匹配 度 的 计算 方法 如 下 。 

步 又 1: 获取 社会 化 媒体 G2 中 与 当前 用 户 有 共同 指向 已 识别 用 户 的 用 户 。 

步 又 2: 当前 用 户 同 所 获取 的 社会 网 络 G2 中 各 用 户 的 出 度 匹 配 度 等 于 G2 中 
各 用 户 的 出 度 的 平方 根 的 倒数 与 这 两 个 用 户 共同 被 指向 的 已 识别 的 用 户 数 的 

步骤 3: 获取 社会 化 媒体 G2 中 与 当前 用 户 有 共同 被 指向 已 识别 用 户 的 用 户 。 

步骤 4: 当前 用 户 同 所 获取 的 社会 网 络 G2 中 各 用 户 的 入 度 匹 配 度 等 于 G2 中 
各 用 户 的 入 度 的 平方 根 的 倒数 与 该 两 用 户 共 同 指向 的 正 识别 用 户 数 的 乘积 。 

步骤 5: 当前 用 户 同 步骤 1 和 步骤 3 中 所 获取 的 社会 网 络 G2 中 各 用 户 的 匹配 
度 为 其 入 度 匹 配 度 和 出 度 匹配 度 的 和 。 


7.3 ”本 章 小 结 


各 式 各 样 的 社会 化 媒体 平台 丰富 着 人 际 之 间 的 交流 方式 ,每 个 平台 都 汇聚 了 
人 们 生活 的 不 同 层面 的 大 量 数 据 , 如 何 融合 这 些 平 台数 据 来 挖掘 用 户 的 深层 信息 
成 为 数据 挖掘 领域 的 新 间 题 ,而 用 户 识别 是 跨 平台 社会 媒体 数据 挖掘 的 首要 任务 。 
本 章 首先 从 人 们 在 选择 用 户 名 的 行为 特征 入 手 ,给 出 了 基于 用 户 名 的 用 户 识 别 方 
法 的 探索 ; 其 次 从 网 络 结构 的 属性 特征 入 手 , 阐 述 了 种 子 结 点 迭代 匹配 的 基于 网 
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络 结构 的 用 户 识别 方法 。 


1. 根据 你 的 理解 , 试 谈 谈 跨 平 台 的 数据 挖掘 的 难点 和 问题 。 
2. 思考 在 跨 平 台 下 如 何 实现 用 户 识别 的 问题 , 谈 谈 你 对 这 个 问题 的 设想 。 


群体 智 苯 


本 章 学 习 目标 
。 理解 群体 智慧 在 社会 计算 中 的 意义 和 含义 
。 理解 五 种 典型 的 群体 智慧 的 算法 思想 


弗朗西斯 。 高 尔 顿 (Francis Galton，1822 一 1911) 是 英国 优生 学 家 ,心理 学 家 ， 
差异 心理 学 之 父 , 心 理 测量 学 上 生理 计量 法 的 创始 人 。1906 年 秋天 的 某 一 天 ,他 
来 到 一 个 乡村 集 市 参加 一 年 一 度 的 英格兰 西部 食用 家 畜 和 家 禽 展 览 会 。 这 个 展会 
是 当地 居民 组 织 的 对 彼此 饲养 的 牛 、 羊 、 鸡 、 马 和 猪 等 家 禽 家 畜 的 品质 进行 评论 的 
集 市 。 当 然 ,高 尔 顿 来 此 的 目的 不 是 参加 对 这 些 动物 的 大 众 评论 ,而 是 一 方面 希望 
对 于 家 畜 的 体质 进行 评估 , 另 一 方面 希望 从 中 发 掘 和 倡导 好 的 饲养 方法 。 

高 尔 顿 在 会 场 漫 步 的 时 候 ,意外 地 被 一 处 竞猜 公牛 重量 赢 大 奖 的 地 方 所 吸引 。 
人 们 需要 对 一 头 肥 壮 的 公牛 进行 鉴赏 ,同时 需要 给 出 自己 对 于 公牛 宣 杀 和 去 毛 后 
的 重量 的 估 测 。 估 测 最 为 接近 的 人 将 赢 取 大 奖 。 人 们 只 需要 花 6 便士 就 可 以 进行 
一 次 竞猜 。 这 项 竞猜 赢 来 了 各 种 各 样 的 一 共 800 个 人 来 碰 运 气 。 他 们 来 自 各 行 各 
业 , 包 括 对 此 很 在 行 的 农民 和 屠夫 ,同时 也 包括 对 此 一 窍 不 通 的 其 他 行业 的 人 。 

高 尔 顿 对 整个 竞猜 过 程 产生 了 极 大 的 兴趣 。 当 竞猜 结束 之 后 他 对 所 有 参加 竞 
猜 打赌 的 人 的 估 测 进行 了 一 系列 的 统计 分 析 。 他 最 终 得 到 了 787 份 有 效 的 猜测 结 
果 。 他 计算 了 所 有 竞猜 者 竞猜 数据 的 平均 值 。 从 某 种 程度 上 说 ,这 个 平均 值 实际 
上 就 是 所 有 参加 人 员 通 过 集体 智慧 对 于 公牛 重量 这 一 问题 的 集体 抉择 。 

很 显然 , 除 农 民 和 屠夫 外 的 其 他 人 毫 无 经 验 , 只 是 凭借 自己 的 想象 和 旁人 的 指 
引 才 做 出 估 测 的 ,这 种 估 测 理应 是 非常 不 准确 的 。 换 句 话说 ,如 果 将 整个 竞猜 过 程 
看 作 是 一 个 集体 的 决策 过 程 , 那 么 ,农民 和 屠夫 的 观点 应 该 是 最 具 价值 的 ,而 其 他 
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人 的 观点 则 会 构成 最 终 的 决策 噪音 ,使 其 产生 偏差 。 基 于 以 上 的 分 析 ,高 尔 顿 认为 
这 个 平均 猜测 值 与 实际 值 会 相去 甚 远 。 不 过 令 人 吃惊 的 是 ,他 错 了 ! 这 个 混合 着 
内 行人 和 外 行人 猜测 的 平均 值 是 1197 磅 ,而 实际 上 这 头 牛 的 净重 是 1198 磅 。 因 
而 可 以 说 这 个 集体 的 判断 称 得 上 是 完美 的 。 高 尔 顿 后 来 由 此 写 道 :“ 和 群体 对 于 民 
主 判断 的 准确 性 要 比 预想 的 可 信 得 多 ”。 

以 上 竞猜 者 对 于 公牛 体重 的 猜测 可 以 说 是 群体 智慧 行为 的 一 个 完美 的 诠释 。 
群体 智慧 是 一 种 由 某 一 群体 共享 的 智能 , 它 从 多 个 个 体 的 合作 与 竞争 以 完成 某 一 
共同 任务 的 过 程 中 体现 。 集 体 智慧 在 微生物 ,动物 、 人 类 以 及 计算 机 网 路 中 均 可 以 
形成 。 群 体 智慧 又 被 称 为 共生 智能 。 通 过 对 于 这 种 群体 智慧 的 研究 ,研究 者 们 还 
提出 了 诸多 通过 模拟 这 类 行为 来 解决 优化 问题 的 有 效 算法 ,包括 蚁 群 算法 、 粒 子 群 
算法 、 人 工 鱼 群 算法 、 人 工 免 疫 算 法 等 。 从 更 广泛 的 角度 来 说 ,这 类 利用 群体 智慧 
的 算法 实际 上 是 社会 计算 的 特殊 形式 , 即 通 过 社会 个 体 的 合作 或 竞争 完成 某 一 特 
定 的 任务 。 本 章 将 对 这 些 算法 进行 描述 ,同时 给 出 一 些 群 体 智慧 在 社会 计算 中 的 
应 用 实例 。 另 外 ,本 章 末 尾 的 补充 材料 还 给 出 了 美国 海军 利用 群体 智慧 成 功 寻找 
潜艇 “天 蝎 号 ”的 例子 。 


8.1 蚁 群 算法 


蚁 群 算法 (Ant Colony Optimization，ACO) ,又 称 蚂蚁 算法 ,是 由 马克 … 多 瑞 
格 (Marco Dorigo) 于 1992 年 在 他 的 博士 论文 中 提出 的 。 蚁 群 算法 通过 模拟 蚁 群 
竟 食 过 程 中 发 现 路 径 的 过 程 来 对 给 定 的 问题 进行 优化 。 

生物 学 家 发 现 蚂蚁 的 更 食 行为 是 一 个 相互 协作 的 过 程 : 蚂蚁 在 怜 行 过 程 中 将 
沿 息 行 路 径 不 断 释放 一 种 称 之 为 “信息 素 ” 的 化 学 物质 ,这 种 化 学 物质 能 够 被 其 他 
的 蚂蚁 所 感知 ,同时 其 浓度 也 能 够 被 识别 。 当 一 只 蚂蚁 在 行进 过 程 中 感知 到 这 种 
信息 素 时 , 它 将 倾向 于 沿 着 已 有 信息 素 的 路 径 前 进 。 当 蚂蚁 感知 到 有 多 条 路 径 同 
时 都 存在 信息 素 的 时 候 , 它 倾向 于 向 信息 素 浓度 较 高 的 路 径 前 行 。 在 这 种 系统 行 
为 的 驱使 下 ,由 于 经 由 最 短路 径 达 到 的 时 间 是 最 短 的 ,导致 随 着 时 间 的 推移 ,经 由 
最 短路 径 到 达 竟 食 地 点 的 蚂蚁 数量 比 其 他 的 路 径 要 多 ,从 而 在 这 条 路 径 上 的 信息 
素 浓度 也 较 高 ,更 多 的 蚂蚁 愿意 从 这 条 道路 经 过 。 同 时 ,那些 不 常 被 经 过 的 路 径 ， 
由 于 信息 素 的 挥发 而 浓度 变 低 , 愈 发 不 会 有 蚂蚁 经 过 。 随 着 这 种 效果 的 不 断 地 累 
计 和 放大 ,即便 在 最 开始 时 蚁 群 通过 各 条 路 径 前 往 食物 源 地 点 的 概率 分 布 是 完全 
随机 的 ,最 终 所 有 的 蚂蚁 也 都 会 从 距离 最 近 的 路 径 经 过 。 图 8. 1 是 这 种 行为 的 一 
个 简单 示意 图 。 

受 此 启发 而 得 到 的 蚁 群 算法 的 优化 过 程 由 以 下 三 个 机 制 组 成 。 
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图 8.1 蚂蚁 更 食 过 程 
(资料 来 源 :， http://upload. wikimedia. org/wikipedia/commons/thumb/3/34/Safari _ ants. jpg/ 
440px-Safari_ants. jpg) 


(1) 选择 机 制 : 信息 素 浓 度 越 大 的 路 径 被 选择 的 概率 相对 越 大 。 
(2) 路 径 更 新 机 制 : 某 一 路 径 上 的 信息 素 浓度 会 由 于 某 一 只 蚂蚁 的 经 过 而 得 
到 一 定 程度 的 增强 ; 同时 , 随 着 时 间 的 推移 ,信息 素 会 以 一 定 的 速率 挥发 而 使 得 浓 


度 降低 。 
(3) 协调 机 制 : 蚂蚁 间 是 通过 感知 路 径 上 信息 素 的 浓度 来 进行 相互 通信 和 协 
同 工 作 的 。 


蚁 群 算法 的 核心 思想 在 于 ,工作 于 蚁 群 中 的 某 一 个 蚂蚁 个 体 是 不 需要 获知 整 
个 系统 的 信息 的 ,事实 上 这 也 是 不 可 能 的 。 它 仅仅 需要 获取 它 自 身 周围 的 信息 ,这 
可 能 是 与 周边 的 某 些 其 他 蚂 蚊 的 交流 抑或 是 感知 它 周 边 各 条 路 径 的 信息 素 分 布 
等 。 根 据 这 些 局 部 信息 ,蚂蚁 个 体 将 进行 局 部 的 调整 或 优化 。 随 着 这 样 的 局 部 调 
整 的 进行 ,整个 系统 也 随 之 逐渐 进入 更 加 优化 的 状态 。 实 际 上 ,这 和 我 们 熟知 的 社 
会 计算 非常 类 似 。 处 于 社会 中 的 个 体 无 法 获取 整个 社会 的 信息 ,而 只 能 依据 自己 
已 知 的 局 部 信息 进行 自我 的 调整 ,而 这 种 调整 实际 上 即 是 对 整个 工作 的 优化 。 蚁 
群 算法 中 ,规定 蚂蚁 个 体 自我 局 部 行为 调整 的 准则 主要 包括 以 下 几 点 。 

(1) 工作 环境 。 在 一 般 算法 实现 中 , 蚁 群 的 活动 区 域 是 一 个 被 划分 成 具有 多 
个 小 方 格 的 方 格 世 界 。 任 意 一 只 蚂蚁 都 处 在 这 样 的 一 个 虚拟 的 环境 之 中 , 它 所 面 
对 的 对 象 包 括 障碍 物 .其 他 的 蚂蚁 、 信 息 素 、 食 物 源 .巢穴 。 其 中 ,信息 素 分 别 产生 
于 回 家 过 程 中 和 更 食 过 程 中 。 

(2) 观察 范围 。 蚂 蚁 个 体 具 有 一 个 有 限 的 观察 范围 。 一 般 来 说 用 一 个 参数 7 
来 设 定 其 观察 的 区 域 9。 例 如 ,r= 二 3, 则 蚂蚁 的 观察 范围 是 以 它 当 前 位 置 为 中 心 的 
3X3 的 方 格 区 域 ,并 且 其 单 步 移 动 的 范围 也 在 这 个 之 内 。 
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(3) 砚 食 ( 梨 ) 规 则 。 某 一 只 蚂蚁 在 当前 所 处 的 位 置 查看 自己 的 观察 范围 9 内 
是 否 存在 食物 ,如果 存在 的 话 则 直接 移动 过 去 ; 否则 ,查看 自己 的 观察 范围 9 内 的 
哪 一 点 具有 最 高 浓度 的 信息 素 , 同 时 向 那 一 点 移动 。 蚂 蚁 允许 以 一 个 极 小 的 概率 
犯错 , 即 在 这 一 概率 条 件 允 许 下 移 向 的 不 是 信息 素 浓度 最 高 的 地 点 。 蚂 蚁 在 寻找 
梨 穴 的 时 候 使 用 相同 的 规则 。 

(4) 移动 规则 。 在 其 观察 范围 之 内 , 某 只 蚂蚁 首先 会 选择 移动 到 食物 源 (或 集 
穴 ); 如 果 不 存在 , 则 移动 到 信息 素 浓度 最 高 的 区 域 ; 如 果 观 察 区 域内 无 信息 素 , 则 
依照 原来 的 移动 方向 继续 移动 。 

(5) 避 障 规则 。 如 果 昭 蚁 在 决定 移动 方向 之 后 发 现 线路 上 有 障碍 物 , 则 沿 障 
得 物 随 机 选 一 个 方向 绕 开 ,如 果 此 时 选择 绕 开 的 路 径 包 含 信息 素 , 则 遵循 更 食 ( 梨 ) 
规则 选择 避 障 路 径 。 

(6) 信息 素 散播 规则 。 蚂 蚁 在 行进 过 程 中 不 断 散 播 对 应 种 类 的 信息 素 。 在 寻 
找 食物 源 ( 梨 穴 ) 的 过 程 中 释放 去 往 巢 穴 ( 食 物 源 ) 的 信息 素 。 并 且 , 随 着 与 梨 穴 ( 食 
物 源 ) 距 离 的 增加 ,散播 的 相应 信息 素 量 减少 。 

在 以 上 规则 的 约束 下 ,离开 巢穴 找到 食物 的 蚂蚁 可 以 标记 回 梨 穴 的 路 径 ,同时 
从 食物 源 回 巢 穴 的 蚂蚁 会 标注 去 往 食物 源 的 路 径 。 随 着 经 过 的 蚂蚁 的 数量 的 增 
加 ,这 些 路 径 会 随 之 加 强 。 图 8. 2 是 一 个 蚁 群 算法 中 蚂蚁 竟 食 过 程 中 寻找 最 短路 
径 的 示意 图 。 


图 8.2 蚂蚁 竟 食 过 程 寻找 最 短路 径 的 示意 图 
(资料 来 源 : http://citeseerx. ist. psu. edu/viewdoc/download?doi 二 10. 1. 1. 84. 4534& rep 一 
repl &.type= pdf) 


除了 基本 的 蚁 群 算法 之 外 ,研究 者 们 还 开发 了 许多 相关 的 扩展 方法 。 其 中 包 
括 精英 蚁 群 系统 、 最 大 一 最 小 蚁 群 系统 (MMAS)、 基 于 排序 的 蚁 群 系统 (ASrank)、 
连续 正 交 蚁 群 算法 (COAC) 、 递 归 蚁 群 优化 等 。 蚁 群 算法 已 被 广泛 地 运用 到 各 个 


第 章 群体 智 丰 
复杂 的 优化 问题 中 。 例 如 调度 问题 中 的 作业 车 间 调 度 问题 ,集团 车 间 调 度 问 题 资 
源 约束 项 目 调度 问题 等 ; 车 辆 路 径 问 题 中 的 容量 限制 的 车 辆 路 径 问题 ,多 分 发 点 
的 车 辆 路 径 问题 .随机 车 辆 路 径 问 题 . 时 间 窗 的 车 辆 路 径 问题 等 ; 集合 问题 中 的 集 
合 覆 盖 问 题 .划分 问题 等 ; 其 他 多 类 问题 如 数据 挖掘 、 图 像 处 理 、 旅 行商 问题 等 。 


8.2 粒子 群 算法 


粒子 群 算法 (Particle Swarm Optimization，PSO) ,又 称 粒 子 群 优化 ,是 由 肯 尼 
迪 (Kennedy) 和 埃 伯 哈 特 (Eberhart) 于 1995 年 提出 的 一 种 著名 的 人 工 智能 算法 。 
该 方法 能 够 有 效 解决 优化 问题 ,从 而 一 经 提出 就 迅速 得 到 了 广泛 的 研究 和 应 用 。 

粒子 群 算法 通过 模拟 乌 类 族群 驶 食 时 相互 之 间 的 信息 传递 机 制 来 达到 问题 的 
优化 目的 。 假 想 在 一 个 空间 里 ,所 有 的 乌 都 在 搜寻 食物 。 然 而 仅 有 一 个 地 点 有 食 
物 , 而 且 没 有 一 只 鸟 知道 食物 的 具体 位 置 是 哪里 ,只 知道 自己 与 食物 的 距离 。 那 么 
此 时 乌 群 的 策略 可 以 是 朝 离 与 食物 距离 最 近 的 那 只 乌 飞 行 。 同 时 ,每 隔 固定 的 一 
段 时 间 , 各 只 鸟 重新 汇报 自己 与 食物 的 距离 ,以 供 鸟 群 中 的 鸟 重新 调整 飞行 的 方 
向 。 在 这 个 策略 下 ,总 体 上 来 说 , 乌 群 与 食物 的 距离 是 越 来 越 近 的 。 因 而 ,在 一 段 
时 间 过 后 , 鸟 群 就 能 够 找到 食物 的 位 置 。 粒 子 群 算法 的 基本 思想 亦 是 如 此 ,算法 将 
每 一 只 鸟 当 作 粒子 群 系统 中 的 单一 粒子 ,赋予 这 些 粒子 以 记忆 能 力 ,存储 本 身 的 飞 
行 信息 。 同 时 ,这 些 粒子 能 够 与 粒子 群 之 中 的 其 他 粒子 进行 信息 的 交互 。 交 互信 
息 包括 当前 的 飞行 信息 以 及 历史 信息 。 根 据 彼 此 的 信息 ,粒子 从 而 调整 自己 的 飞 
行 方 向 和 速率 ( 即 速度 )。 通 过 这 种 不 断 地 交流 和 调整 ,算法 期 望 粒子 群 中 的 某 一 
个 或 者 多 个 粒子 能 够 寻找 到 问题 的 最 优 解 。 

粒子 群 算法 的 基本 流程 可 以 简 述 为 :随机 或 其 他 方法 ) 初 始 化 一 个 待 优化 问 
题 的 解 集合 ( 即 多 个 解 , 亦 即 解 空间 中 的 多 个 点 ) ,每 个 解 被 看 作 是 粒子 群 优化 算法 
的 一 个 粒子 。 这 些 粒子 以 不 同 的 速度 (方向 和 速率 ) 在 解 空间 中 运动 。 实 际 上 ,该 
速度 是 由 该 粒子 本 身 的 历史 最 优 位 置 和 整个 粒子 群 所 到 达 的 最 优 位 置 共同 决定 
的 。 即 更 新 某 一 个 粒子 某 一 维度 上 的 速度 的 式 (8-1) 是 

Va Wynal bors(pia— Xa) phere (gd— Zr,a) (8-1) 

其 中 ,i 表示 第 i 个 粒子 ,d 表示 粒子 的 第 d 维 ,v 表示 对 应 的 速度 ,p 表示 该 粒子 历 
史 最 优 位 置 ,g 表示 整个 粒子 群 历史 最 优 位 置 ,z 表示 该 粒子 该 维度 当前 位 置 。x,， 
rs 是 随机 生成 的 两 个 0~1 之 间 均 匀 分 布 的 随机 数 , 用 以 调节 粒子 自身 历史 最 优 和 
粒子 群 历史 最 优 对 当前 速度 改变 的 影响 。w.$。 .$s 是 由 用 户 选择 的 用 来 调节 算法 
效率 和 效果 的 参数 ,实际 运用 时 需要 不 断 调 优 。 当 更 新 完 某 一 个 粒子 的 所 有 维度 
上 的 速度 之 后 ,该 粒子 的 自身 位 置 将 作对 应 的 改变 : 
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天 十 动 
图 8.3 给 出 了 更 新 某 一 个 粒子 速度 的 示意 图 。 其 中 ,大 和 jz 和 :分 别 为 粒子 当 
前 位 置 和 更 新 后 位 置 ; vp 和 vc 分 别 为 根据 该 粒子 历史 最 优 位 置 和 粒子 群 历史 
最 优 位 置 求 得 的 速度 , 即 (pi; 一 zx; ) 和 (g 一 zx;); 认 和 二分 别 为 更 新 前 和 更 新 后 的 
速度 ; o,‰ ,ps 是 参数 。 


pprpVpbest 


x 


图 8.3 二 维 空间 中 ,粒子 群 算法 更 新 某 粒子 速度 的 示意 图 


当 更 新 完 某 一 粒子 的 位 置 之 后 需要 计算 该 位 置 上 对 应 解 的 优 劣 ,如 果 该 解 优 
于 该 粒子 的 自身 历史 最 优 解 , 则 更 新 历史 最 优 解 。 当 更 新 完 所 有 粒子 的 位 置 和 历 
史 最 优 解 后 ,将 所 有 的 最 优 解 与 粒子 群 的 历史 最 优 解 比较 。 如 果 存 在 优 于 粒子 群 
历史 最 优 解 的 粒子 , 则 更 新 粒子 群 的 历史 最 优 解 。 重 复 以 上 的 更 新 过 程 , 直 达 算 法 
收敛 。 算 法 运行 结束 后 ,g 即 算法 本 次 求解 得 到 的 最 优 解 。 

图 8.4 与 图 8.5 所 示 的 是 利用 粒子 群 算法 进行 函数 优化 的 实例 。 其 中 ,图 8.4 
和 图 8. 5 分 别 是 Rastrigin 函数 和 Ripple 函数 ,其 函数 定义 分 别 如 式 (8-2)、 式 (8-3) 
所 示 。 


fi(x) = >) (好 一 10cos(2rzi) 十 10)， —5.12<zx<5.12 (8-2) 
1 一 1 


(sn D4#| 一 0.5 


fi(x) = 0.51+ Ey 
Qi+o.001D#] 
i=1 


Rastrigin 和 Ripple 函数 在 {x; 二 0.i 二 1,2,…,n}) 处 具有 全 局 最 优 解 ,同时 具有 
多 个 局 部 最 优 解 。 在 图 8.4 和 图 8. 5 中 ,(a) 给 出 了 两 维 Rastrigin 和 Ripple 的 函 
数 示意 图 ;(b) 给 出 了 在 迭代 的 过 程 中 ,所 获得 的 函数 值 的 变化 过 程 ; (c) 一 (e) 分 
别 给 出 了 在 算法 进行 到 第 1 次 迭代 、10 次 迭代 和 100 次 迭代 时 的 粒子 群 分 布 情况 。 
由 图 可 以 看 出 ,粒子 群 算法 的 优化 结果 较 好 , 均 找 到 了 函数 的 全 局 最 小 值 。 在 迭代 
开始 阶段 ,粒子 群 的 分 布 较为 扩散 ,几乎 遍布 了 解 空间 的 各 个 位 置 。 随 着 迭代 次 数 
的 增加 ,粒子 群 逐渐 收敛 到 同一 个 位 置 。 


10<zrx10 (8-3) 
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(b) 在 给 定 迭 代 次 数 所 寻找 到 的 最 小 值 


示意 图 


(a) Rastrigin 函 数 
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(d) 等 高 线 图 示意 下 的 欠 代 次 数 10 时 粒子 群 的 分 布 


(c) 等 高 线 图 示意 下 的 迭代 次 数 1 时 粒子 群 的 分 布 
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子 群 的 分 布 


线 图 示意 下 的 友 代 次 数 100 时 粒 
8.4 粒子 群 算法 寻找 Rastrigin 函数 的 最 优 值 


(e) 等 高 


d,e 图 中 黑色 圆 点 为 粒子 ) 


(c, 
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(a) Ripple 函 数 示意 图 (b) 在 给 定 迭 代 次 数 所 寻找 到 的 最 小 值 
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(e) 等 高 线 图 示意 下 的 迭代 次 数 100 时 粒子 群 的 分 布 


图 8.5 粒子 群 算法 寻找 Ripple 函数 的 最 优 值 
(c,d, e 图 中 黑色 圆 点 为 粒子 ) 
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8.3 人工 鱼 群 算法 


人 工 鱼 群 算法 (Artificial Fish Swarm Algorithm, AFSA) 是 李 晓 大 等 (2002) 
提出 的 一 种 智能 算法 。 与 蚁 群 算法 类 似 ,人 工 鱼 群 算法 通过 模拟 鱼 群 的 群体 疯 食 
行为 来 进行 优化 。 该 算法 假设 水 域 中 含有 营养 物质 最 多 的 地 方 是 鱼 群 聚集 的 地 方 
( 鱼 的 生存 密度 最 大 ) 。 

人 工 鱼 群 算法 主要 模拟 了 鱼 群 生活 的 四 大 行为 : 砚 食 行为 . 聚 群 行为 .追尾 行 
为 和 随机 行为 。 其 中 各 种 行为 的 含义 如 下 。 

(1) 砚 食 行为 。 鱼 群 中 的 所 有 个 体 ( 鱼 ) 总 体 上 是 趋向 于 食物 运动 的 。 即 所 有 
的 鱼 的 最 终 目的 是 寻找 到 水 域 中 营养 物质 最 为 丰富 的 位 置 。 同 时 假设 鱼 是 通过 视 
觉 或 味觉 来 感知 水 中 营养 物质 浓度 的 ,并 且 在 没有 到 达 食 物 地 点 前 据 此 选择 移动 
方向 。 

(2) 聚 群 行为 。 当 水 域 里 的 鱼 的 密度 不 超过 一 定 限度 时 , 鱼 群 倾向 于 聚集 在 
一 起 。 表 现 为 鱼 群 同时 砚 食 或 躲避 敌 害 。 这 种 行为 在 现实 中 很 容易 观察 到 。 

(3) 追尾 行为 。 当 鱼 群 之 中 的 某 些 个 体 发 现 食物 后 ,它们 附近 的 鱼 都 会 尾随 
过 来 。 同 时 范围 逐渐 扩大 ,使 附近 更 多 的 鱼 都 意识 到 食物 的 地 点 ,并 通过 追尾 行为 
找到 食物 。 

(4) 随机 行为 。 当 鱼 群 中 没有 鱼 找到 营养 物质 浓度 较 高 的 水 域 的 时 候 , 鱼 群 
中 的 鱼 通过 在 水 域 中 随机 游 走 的 方式 期 望 找到 食物 。 

现 假设 人 工 鱼 群集 合 为 X, 其 中 第 i 个 个 体位 置 可 表示 为 X;= (x} ,x?,…， 
0 ,i 二 1,2,…,n, 实 际 寻 优 过 程 中 ,xt (k= 二 1,2,…,d) 为 寻 优 变量 ,d 为 寻 优 变量 
数量 ,n 为 人 工 鱼 群 鱼 的 数量 ; 令 对 应 于 鱼 i 的 Yi 二/(X;),f 为 寻 优 函数 ,Y 为 目 
标 函 数值 ; 人工 鱼 i 和 j 之 间 的 距离 表示 为 其 欧式 距离 , 即 必 =  X; 一 Xe ; 人 
工 鱼 群 算法 为 鱼 群 中 的 每 一 个 个 体 设 置 一 个 感知 范围 , 记 为 v; 用 表示 人 工 鱼 每 
一 次 移动 的 步 长 ; 6 表示 某 一 水 域 人 工 鱼 的 拥挤 因子 。 从 而 人 工 鱼 群 算法 可 以 描 
述 为 : 

(1) 砚 食 行为 : 对 于 人 工 鱼 i, 在 其 感知 范围 内 随机 寻找 一 个 位 置 P;, 即 从 点 集 
合 ( 超 球体 ){P,|d;,, 三 wv,i 隆 t} 中 随机 选择 一 个 元 素 , 判 断 是 否 满足 条 件 f(P;) 一 
了 (Xi)( 求 函数 最 小 值 ,如 果 求 最 大 值 则 相反 )。 如 果 满 足 , 则 让 该 人 工 鱼 沿 Pj 一 X; 
方向 移动 一 个 步 长 ; ,其 新 位 置 为 X/; 如 果 不 满足 , 则 重新 随机 选择 位 置 P; ,并 重复 
判断 ; 反复 工 次 后 ,如 果 仍 不 能 满足 条 件 , 则 随机 游 走 一 步 。 

(2) 聚 群 行为 : 对 于 人 工 鱼 i, 在 其 感知 范围 内 随机 寻找 人 工 鱼 j 的 集合 , 即 计 
算 人 工 鱼 集合 B= {X, | di;, 二 v,t € X}。 同 时 计算 B 的 中 心 位置 C, 其 中 CC 的 第 
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有 维 为 C, 二 > ) zt/ | B |. 如 果 f(C)/ | B | 二 6/(X;), 则 表明 附近 的 水 域 的 食物 足 
够 供给 这 些 鱼 ,不 很 拥挤 ,因而 让 该 人 工 鱼 沿 C 一 X; 方向 移动 一 个 步 长 ;; 否则 执 
行 更 食 行为 。 

(3) 追尾 行为 : 对 于 人 工 鱼 i, 在 其 感知 范围 内 随机 寻找 具有 最 大 目标 函数 值 
Yj; 的 人 工 鱼 j, 即 寻找 人 工 鱼 {j|Yj 志 VY,,di, 志 v,t EX}。 如 果 f(X;)/1B| 二 
6f(X;) , 则 表明 X; 附 近 的 食物 足够 充分 并 且 不 太 拥 挤 , 从 而 让 该 人 工 鱼 j 沿 X ;一 
XX; 方向 移动 一 个 步 长 ;; 否则 执行 殉 食 行为 。 

人 工 鱼 群 算法 在 优化 问题 上 表现 出 来 较 强 的 泛 化 能 力 ,能 够 跳出 局 部 最 优点 ， 
其 主要 原因 在 于 多 个 行为 之 间 的 协作 。 疯 食 行为 实际 上 是 人 工 鱼 群 算法 搜索 解 空 
间 的 主要 手段 。 通 过 疯 食 行为 ,人 工 鱼 群 能 够 从 局 部 到 整体 非常 全 面 地 搜索 解 空 
间 。 聚 群 行为 有 助 于 加 强 对 解 空间 的 全 面 搜索 。 当 某 一 位 置 的 人 工 鱼 数量 过 多 
时 ,算法 会 自 组 织 式 地 引导 人 工 鱼 在 其 他 的 位 置 形成 鱼 群 ,从 而 能 够 更 加 有 效 地 跳 
出 局 部 最 优 解 ,提升 找到 全 局 最 优 的 可 能 性 。 和 追尾 行为 则 与 聚 群 行为 相反 ,主要 致 
力 于 局 部 的 搜索 。 当 通过 聚 群 行为 大 致 找到 最 优点 (全 局 或 局 部 ) 的 位 置 时 ,追尾 
行为 能 够 迅速 全 面 地 对 这 一 很 小 的 区 域 进行 彻底 的 搜索 ,以 很 快 找到 相应 位 置 的 
最 优点 。 实 际 上 ,人 工 鱼 群 算法 可 以 看 作 是 一 种 自 组 织 式 的 分 布 式 搜索 。 首 先 聚 
群 行为 将 人 工 鱼 按 解 空间 分 布 , 分 为 若干 个 小 的 鱼 群 ; 然后 追尾 行为 并 行 地 在 这 
些 局 部 区 域内 搜索 ; 现 食 行为 则 一 方面 为 前 两 者 提供 了 实现 的 手段 , 另 一 方面 提 
升 了 整个 解 空间 的 搜索 范围 。 该 算法 的 缺点 在 于 有 很 多 的 参数 需要 确定 ,特别 是 
在 高 维 解 空间 的 时 候 , 这 种 问题 尤为 突出 ,因而 需要 进行 大 量 的 参数 调 优 工作 。 

图 8.6 和 图 8.7 是 使 用 人 工 鱼 群 算法 对 Rastrigin 和 Ripple 函数 进行 优化 的 结 
果 。 可 以 看 出 ,优化 结果 较 好 。 最 终 , 人 工 鱼 在 解 空间 的 分 布 较 粒子 群 算法 更 为 均匀 。 
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(a) 在 给 定 迭 代 次 数 所 寻找 到 的 最 小 值 (b) 等 高 线 图 示意 下 的 迭代 次 数 1 时 鱼 群 的 分 布 
图 8.6 人 工 鱼 群 算法 寻找 Rastrigin 函数 的 最 小 值 
(b,c, d 图 中 黑色 圆 点 为 人 工 鱼 ) 
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(6) 等 高 线 图 示意 下 的 迭代 次 数 10 时 鱼 群 的 分 布 
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(d) 等 高 线 图 示意 下 的 欠 代 次 数 100 时 鱼 群 的 分 布 


图 8.7 ”人工 鱼 群 算法 寻找 Ripple 函数 的 最 小 值 
(b,c, d 图 中 黑色 圆 点 为 人 工 鱼 ) 
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8.4 ”人工 免疫 算法 


人 工 免 疫 算法 (Artificial Immune Algorithm，AIA) 是 模拟 生物 自然 免疫 系统 
响应 机 制 的 一 种 智能 算法 。 该 算法 由 Farmer 等 人 于 1986 年 首次 提出 来 。 但 直到 
1994 之 后 ,由 于 Kephart(1994) 的 工作 才 使 得 该 算法 开始 得 到 广泛 的 认 知 。 

科学 家 和 医学 工作 者 很 早 就 发 现 等 到 传染 病 患者 痊愈 之 后 ,患者 就 会 对 这 种 
病 有 不 同 程度 的 免疫 力 。 这 种 免疫 力 的 产生 是 机 体 中 的 免疫 系统 的 作用 。 免 疫 系 
统 具 备 产 生 抗体 的 能 力 。 当 病原 体 (抗原 ) 进 入 到 人 体 后 ,体液 中 的 B 细胞 和 人 荆 细 
胞 开始 工作 。 总 地 来 说 ,T 细胞 的 作用 就 是 调节 其 他 细胞 的 活动 来 对 抗 抗原 ,或 者 
是 直接 对 抗原 实施 攻击 。B 细胞 则 分 成 两 部 分 ,其 中 一 部 分 成 为 效应 B 细胞 ,负责 
依据 荆 细 胞 呈 弟 的 信息 针对 入 侵 的 病原 立即 产生 抗体 ,这 些 抗 体能 够 对 病原 实施 
攻击 ; 另外 一 部 分 化 为 长 期 存活 的 记忆 B 细胞 ,它们 将 存留 于 机 体 的 血液 淋巴 组 
织 中 ,并 在 机 体 中 循环 ,当下 一 次 有 相同 的 病原 体 和 人 侵 时 ,这 些 病 原 体 将 直接 刺激 
记忆 B 细胞 ,引起 大 量 的 增殖 分 化 ,转化 为 效应 B 细胞 ,使 其 迅速 产生 抗体 ,消灭 抗 
原 ,避免 机 体 再 次 受到 同样 病原 体 的 攻击 。 成 熟 的 细胞 和 B 细胞 分 别 产生 于 胸 
腺 和 骨髓 之 中 。 它 们 在 成 熟 之 后 进行 克隆 增殖 、 分 化 表达 功能 。 在 免疫 系统 之 中 ， 
两 种 细胞 共同 作用 的 同时 还 相互 影响 和 抑制 对 方 的 功能 ,形成 机 体内 部 高 度 规律 
的 反馈 型 免疫 网 络 。 

总 结 起 来 ,免疫 系统 的 关键 部 分 在 于 : 

(1) 其 中 一 部 分 B 细胞 转化 为 效应 B 细胞 ,产生 抗体 ; 

(2) 另 一 部 分 B 细胞 转化 为 记忆 B 细胞 ,监控 相同 病原 的 入 侵 ,一 旦 入 侵 , 则 
迅速 大 量 增殖 分 化 ,转化 成 效应 B 细胞; 

(3) 免疫 系统 在 经 历 病原 人 侵 后 存在 着 超 变异 ,即使 机 体 的 免疫 能 力 增强 。 
人 工 免疫 算法 即 模拟 了 机 体 免 疫 系统 中 的 抗体 的 产生 ,抗体 与 抗原 的 黏合 .克隆 、 
刺激 及 最 终 的 超 变异 等 过 程 。 

在 优化 问题 求解 的 过 程 中 , 待 解决 的 问题 被 看 作 是 抗原 ,问题 的 解 空间 为 B 细 
胞 (或 抗体 ) , 解 的 适应 度 为 抗体 与 抗原 的 黏合 性 。 忽 略 T 细胞 对 抗 抗原 和 向 B 细 
胞 呈 递 信息 的 过 程 , 人 工 免疫 算法 主要 包括 以 下 几 个 步 又 。 

(1) 产生 初始 的 也 细胞 集合 B; 。 即 从 待 优化 问题 的 解 空间 随机 (或 其 他 方法 ) 
生成 若干 组 (N) 可 行 解 。 

(2) 计算 每 个 B 细胞 和 抗原 的 黏合 性 。 即 计算 函数 在 这 个 解 下 的 函数 值 。 例 
如 求解 函数 Y= 二 A(X) 的 最 小 值 , 则 计算 对 每 个 B 细胞 计算 :一 A(B) , 值 越 小 则 黏 
合 性 越 强 , 即 适应 度 越 高 。 
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(3) 克隆 。 从 B 细胞 集合 B, 中 选择 黏合 性 较 强 的 个 B 细胞 进行 克隆 ,产生 
B 细胞 集合 B;。 

(4) 变异 。 对 B, 中 的 B 细胞 进行 变异 操作 ,变异 的 概率 随 着 黏合 性 的 增强 而 
不 断 变 小 。 变 异 完成 后 产生 抗体 细胞 群体 Bs 。 

(5) 选择 。 从 Bi 中 淘汰 黏合 性 弱 的 B 细胞 ,形成 B 细胞 集合 B, 。 

(6) 更 新 。 从 Bs 中 选择 黏合 性 强 的 B 细胞 形成 集合 Bs ,将 Bs 加 入 到 Bi 形成 新 
的 也 细胞 集 。B: 中 的 也 细胞 每 一 代 都 更 新 ,同时 淘汰 一 些 相似 的 也 细胞 。 

(7) 重复 (2) 一 (6) 直 到 算法 收敛 。 

从 整个 算法 流程 上 来 看 ,人 工 免疫 算法 和 遗传 算法 具有 一 定 的 相似 性 ,但 是 二 
者 的 生物 学 背景 完全 不 同 。 遗 传 算法 在 给 群体 中 个 体 提 供 进 化 的 同时 也 有 相当 大 
的 可 能 性 出 现 明显 的 退化 现象 。 而 人 工 免 疫 算法 规定 了 黏合 性 较 高 的 B 细胞 的 变 
异 概率 较 低 ,在 一 定 程度 上 降低 了 盲目 性 。 


8.5 人 本 计算 


随 着 社会 计算 方法 得 到 更 深层 次 的 认识 , 越 来 越 多 的 人 开始 构思 如 何 能 够 更 
加 充分 地 利用 社会 大 众 的 力量 来 完成 一 些 工 程 量 浩大 的 工作 。 由 人 们 上 网 过 程 中 
需要 输入 验证 码 这 一 事实 而 催生 的 调动 全 世界 范围 内 的 人 参加 《纽约 时 报 》 数 字 化 
工作 的 成 功 实践 就 是 利用 社会 计算 方法 的 最 为 生动 的 一 个 事例 。 

《纽约 时 报 》 于 1851 年 创刊 , 距 今 已 有 160 多 年 的 历史 ,但 是 能 够 在 网 上 找到 
的 数字 化 的 内 容 只 有 在 1981 年 之 后 ,在 那 之 前 的 129 年 的 内 容 是 被 扫描 成 图 像 而 
保存 在 计算 机 中 的 。 然 而 这 种 扫描 件 的 缺点 在 于 一 方面 占用 的 存储 量 巨大 , 另 一 
方面 是 无 法 有 效 地 进行 检索 。 因 而 《纽约 时 报 》 希 望 能 够 将 之 前 的 129 年 的 内 容 
全 部 转化 为 真正 意义 上 的 数字 存储 。 但 是 问题 在 于 这 些 报纸 都 非常 久远 ,传统 的 
光学 字符 识别 (Optical Character Recognition，OCR ) 技术 在 此 没 办 法 保证 准确 
性 。 当 然 , 如 果 使 用 人 工 录入 的 话 ,工作 量 之 巨大 是 可 想 而 知 的。 然而 最 终 《 纽 约 
时 报 》 神 奇 地 在 短 短 的 24 个 月 的 时 间 内 完成 了 这 一 壮举 。 他 们 所 利用 的 正 是 我 们 
所 关注 的 社会 计算 ,在 这 里 又 称 为 “人 本 计算 ”。 《纽约 时 报 》 首 先 将 报纸 的 扫描 件 
拆 分 为 一 段 一 段 的 小 图 片 ,每 个 图 片上 包含 1 个 或 少量 几 个 单词 。 之 后 ,他 们 将 这 
些 生成 的 图 片 提供 给 各 个 网 站 ,让 他 们 将 这 些 图 片 作为 验证 字符 。 这 样 , 全 世界 各 
地 的 人 都 可 以 参与 解读 这 些 单词 。 如 果 达 到 一 定数 量 的 人 对 某 张 图 片 的 单词 的 录 
入 是 相同 的 ,那么 这 就 将 作为 本 单词 的 录入 。 当 所 有 的 单词 都 被 录入 后 ,工作 人 员 
只 需要 将 它们 重新 拼接 起 来 形成 完整 的 文章 就 可 以 了 。 如 图 8. 8 所 示 , 是 一 个 可 
能 的 验证 码 。 
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图 8.8 带 有 morning upon 单词 的 验证 码 
(资料 来 源 : http://www. google. com/recaptcha) 


一 方法 正 是 由 验证 码 机 制 (CAPTCHA) 的 发 明 者 ,卡耐基 梅 隆 大 学 的 著 
名 学 者 路 易 斯 。 凡 。 安 (Luis von Ahn) 提 出 的 。 他 和 他 的 导师 发 明 这 一 技术 的 
初衷 只 是 防止 密码 被 盗用 或 是 发 垃圾 邮件 。 这 项 技术 在 发 明 后 的 短 短 几 年 内 就 
得 到 了 迅速 的 普及 。 互 联网 上 ,每 天 被 使 用 的 校 验 码 的 数量 高 达 2 亿 个 。 现 在 ， 
几乎 所 有 的 网 站 都 会 用 到 验证 码 技术 。 当 然 ,事实 证 明 , 路 易 斯 的 发 明 也 没有 仅 
仅 停留 在 网 络 安全 应 用 的 层面 。 路 易 斯 将 这 一 技术 拓展 之 后 实际 上 成 就 了 一 门 新 兴 
的 科学 一 人 本 计算 (Human-Based Computation) 或 人 计算 (Human Computation)。 它 
的 基本 思想 是 利用 互联 网 络 的 分 布 性 和 协同 性 ,整合 社会 的 力量 来 完成 单个 
组 织 或 计算 机 无 法 完成 的 任务 。 这 门 科学 研究 人 与 人 、 人 与 计算 机 之 间 的 协 
作 , 希 望 把 二 者 的 优势 都 能 够 发 挥 出 来 ,从 而 达到 群体 智能 的 效果 。《 纽 约 时 
报 ) 正 是 这 样 理念 的 一 个 成 功 实践 ,由 此 开发 的 reCAPTCHA 系统 也 正 被 广泛 
地 使 用 。 
除了 reCAPTCHA 系统 外 ,路 易 斯 还 推出 过 一 个 著名 的 游戏 ,名 为 ESP 
Game。 设 计 的 思想 非常 简单 。 当 某 一 个 人 进入 游戏 后 ,网 站 会 随机 给 他 分 配 
一 个 玩家 。 在 每 一 轮 游戏 开始 后 ,系统 会 同时 向 两 个 人 展示 同一 张 图 片 。 玩 
家 有 两 分 钟 的 时 间 对 这 张 图 片 进行 标注 ,例如 海 、 河 、 树 、 天 空 、 猎 等。 如果 两 
个 人 标注 的 关键 词 有 相同 的 就 可 以 得 分 ,得 分 奖励 能 够 激励 玩家 的 兴趣 。 当 
然 , 在 这 背后 更 为 重要 的 是 网 站 可 以 根据 玩家 的 标注 有 效 地 对 这 张 图 片 进 行 
标记 。 例 如 ,如 果 有 10 个 玩家 对 某 一 张 图 片 标记 了 “ 云 ”, 那 么 可 以 肯定 “ 云 ” 
应 该 作为 这 张 图 片 的 一 个 标签 。 实 际 上 ,为 图 片 做 标签 是 一 件 非常 困难 的 事 
情 。 特 别 是 , 当 需 要 对 海量 的 图 片 进行 标记 时 ,在 人 力 和 物力 双方 面 基 本 上 都 
是 不 可 能 的 。ESP Game 则 很 完美 地 解决 了 这 一 问题 ,只 要 能 够 保证 玩家 的 数 
量 , 图 片 就 能 被 准确 高 效 地 标注 。 
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8.6 补充 材料 : 寻找 潜艇 “天 蝎 号 ” 


1968 年 5 月 ,美国 潜艇 “天 蝎 号 "在 从 北大 西洋 完成 例 行 执 勤 任务 后 返回 新 泽 
西港 的 途中 突然 神秘 失踪 。 美 国 海军 不 能 判断 “天 蝎 号 到底 发 生 了 什么 事情 ,只 
能 根据 它 最 后 一 次 发 回 的 无 线 电 通信 信号 判断 出 潜艇 的 大 致 位 置 。 最 后 ,海军 指 
挥 部 只 得 规划 出 一 个 半径 达 20 海里 , 深 数 千 英 尺 的 海域 进行 搜索 。 这 种 搜索 无 异 
于 大 海 捞 针 ,潜艇 有 可 能 躺 在 这 一 海域 内 的 任意 一 处 。 时 有 ”美国 海军 特别 计划 部 
首席 科学 家 ”头衔 的 海军 军官 约翰 。 克 拉 文 (John Craven) 想 出 了 一 个 独特 的 搜寻 
方案 。 

克拉 文 邀 请 了 一 群 具有 不 同 背 景 知识 的 专业 人 士 , 他 们 之 中 包括 数学 家 、 潜 艇 
专家 海事 搜救 等 各 个 领域 的 专家 。 依 据 他 们 的 建议 和 意见 ,克拉 文 编写 了 "天 蝎 
号 ?失事 的 各 种 不 同 的 可 能 的 “剧本 ”, 同 时 邀请 这 些 专 家 依据 自己 的 专业 知识 对 于 
“天 蝎 号 ”依照 哪个 剧本 进行 发 展 做 出 判断 和 “投注 ”"。 据 说 ,为 了 让 这 一 过 程 变 得 
有 趣 ,克拉 文 还 为 大 家 准备 了 威士忌 酒 作为 投注 的 奖励 。 

克拉 文 最 后 依据 专家 们 的 推断 和 预测 结果 得 到 了 潜艇 位 于 所 需要 搜寻 的 海域 
各 个 位 置 的 概率 图 。 整 个 概率 图 被 划分 为 很 多 个 小 格子 。 然 后 ,利用 贝 叶 斯 理论 
对 这 些小 格子 代表 的 区 域 进行 有 顺序 的 搜索 。 

最 终 ,“ 天 蝎 号 "在 失事 5 个 月 后 被 发 现 。 令 人 吃惊 的 是 ,人 们 最 后 发 现 ,“ 天 蝎 
号 "实际 的 失事 位 置 与 克拉 文 依据 众 专家 意见 计算 得 到 的 预测 位 置 相差 的 距离 仅 
仅 为 220 码 。 


8.7 ”本章 小 结 


社会 化 媒体 促使 人 类 生活 走向 更 深入 、 更 全 面 、 更 广泛 、 更 便捷 的 交流 模式 , 缩 
短 了 人 们 彼此 之 间 的 距离 ,为 社会 网 络 下 的 群体 智慧 的 形成 和 发 展 竟 定 了 基础 。 
本 章 从 群体 智慧 的 有 趣 故 事 开 始 ,分 别 介 绍 了 蚁 群 算 法 、 粒 子 群 算法 、 人 工 鱼 群 算 
法 、 人 工 免 疫 算法 、 人 本 计算 的 机 理 和 实例 效果 ,这 些 内 容 揭 示 了 群体 运动 的 组 织 
和 发 展 的 重要 规律 ,为 社会 网 络 下 的 群体 智能 的 相关 研究 提供 了 新 颖 的 思路 。 


1. 简 述 蚁 群 算法 的 机 理 , 试 思考 社会 网 络 下 的 蚁 群 算法 的 应 用 场景 。 
2. 简 述 粒子 群 算法 的 机 理 ,并 选择 相应 的 仿真 环境 ,实现 利用 粒子 群 算法 对 
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Rastrigin 函数 进行 优化 的 实例 。 

3. 简 述 人 工 鱼 群 算法 的 机 理 , 并 选择 相应 的 仿真 环境 ,实现 利用 人 工 鱼 群 算 
法 对 Ripple 函数 进行 优化 的 实例 。 

4. 请 读者 查找 遗传 算法 的 相关 资料 ,分 析 人 工 免疫 算法 与 遗传 算法 的 区 别 ， 
并 选择 相关 实例 进行 两 者 对 比 。 

5. 试 思考 如 何 利 用 群体 智慧 对 社会 网 络 下 网 民 的 行为 及 情感 进行 建 模 和 
分 析 。 
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